Arthur, une startup de surveillance de l’apprentissage automatique, a bénéficié cette année de l’intérêt pour l’IA générative et a développé des outils pour aider les entreprises à travailler plus efficacement avec les LLM. Aujourd’hui, il publie Arthur Bench, un outil open source pour aider les utilisateurs à trouver le meilleur LLM pour un ensemble particulier de données.
Adam Wenchel, PDG et co-fondateur d’Arthur, déclare que la société a suscité beaucoup d’intérêt pour l’IA générative et les LLM, et qu’elle a donc déployé beaucoup d’efforts pour créer des produits.
Il dit qu’aujourd’hui, et étant donné que nous sommes moins d’un an depuis la sortie de ChatGPT, les entreprises n’ont pas de moyen organisé pour mesurer l’efficacité d’un outil par rapport à un autre, et c’est pourquoi elles ont créé Arthur Bench.
« Arthur Bench résout l’un des problèmes critiques que nous venons d’entendre avec chaque client qui est [with all of the model choices]lequel convient le mieux à votre application particulière », a déclaré Wenchel à TechCrunch.
Il est livré avec une suite d’outils que vous pouvez utiliser pour tester méthodiquement les performances, mais la valeur réelle est qu’il vous permet de tester et de mesurer les performances des types d’invites que vos utilisateurs utiliseraient pour votre application particulière par rapport à différents LLM.
« Vous pouvez potentiellement tester 100 invites différentes, puis voir comment deux LLM différents – comme la façon dont Anthropic se compare à OpenAI – sur les types d’invites que vos utilisateurs sont susceptibles d’utiliser », a déclaré Wenchel. De plus, il dit que vous pouvez le faire à grande échelle et prendre une meilleure décision sur le modèle qui convient le mieux à votre cas d’utilisation particulier.
Arthur Bench est publié aujourd’hui en tant qu’outil open source. Il y aura également une version SaaS pour les clients qui ne souhaitent pas gérer la complexité de la gestion de la version open source, ou qui ont des exigences de test plus importantes et sont prêts à payer pour cela. Mais pour l’instant, Wenchel a déclaré qu’ils se concentraient sur le projet open source.
Le nouvel outil fait suite à la sortie d’Arthur Shield en mai, une sorte de pare-feu LLM conçu pour détecter les hallucinations dans les modèles, tout en protégeant contre les informations toxiques et les fuites de données privées.