Parallèlement à GPT-4, OpenAI a ouvert un framework logiciel pour évaluer les performances de ses modèles d’IA. Appelé Evals, OpenAI indique que l’outil permettra à quiconque de signaler les lacunes de ses modèles pour aider à guider les améliorations.
C’est une sorte d’approche de crowdsourcing pour les tests de modèles, explique OpenAI dans un article de blog.
« Nous utilisons Evals pour guider le développement de nos modèles (à la fois en identifiant les lacunes et en empêchant les régressions), et nos utilisateurs peuvent l’appliquer pour suivre les performances entre les versions de modèles et l’évolution des intégrations de produits », écrit OpenAI. « Nous espérons qu’Evals devienne un véhicule de partage et de crowdsourcing de benchmarks, représentant un ensemble extrêmement large de modes de défaillance et de tâches difficiles. »
OpenAI a créé Evals pour développer et exécuter des benchmarks pour évaluer des modèles comme GPT-4 tout en inspectant leurs performances. Avec Evals, les développeurs peuvent utiliser des ensembles de données pour générer des invites, mesurer la qualité des complétions fournies par un modèle OpenAI et comparer les performances entre différents ensembles de données et modèles.
Evals, qui est compatible avec plusieurs benchmarks d’IA populaires, prend également en charge l’écriture de nouvelles classes pour implémenter une logique d’évaluation personnalisée. Comme exemple à suivre, OpenAI a créé une évaluation de puzzles logiques qui contient 10 invites où GPT-4 échoue.
C’est du travail non rémunéré, très malheureusement. Mais pour encourager l’utilisation d’Evals, OpenAI prévoit d’accorder l’accès GPT-4 à ceux qui contribuent à des benchmarks de « haute qualité ».
« Nous pensons qu’Evals fera partie intégrante du processus d’utilisation et de développement de nos modèles, et nous accueillons les contributions directes, les questions et les commentaires », a écrit la société.
Avec Evals, OpenAI – qui a récemment déclaré qu’il cesserait d’utiliser les données des clients pour former ses modèles par défaut – suit les traces d’autres qui se sont tournés vers le crowdsourcing pour renforcer les modèles d’IA.
En 2017, le laboratoire de linguistique computationnelle et de traitement de l’information de l’Université du Maryland a lancé une plateforme baptisée Break It, Build It, qui permet aux chercheurs de soumettre des modèles aux utilisateurs chargés de trouver des exemples pour les vaincre. Et Meta maintient une plate-forme appelée Dynabench qui propose aux utilisateurs des modèles « imbéciles » conçus pour analyser les sentiments, répondre aux questions, détecter les discours de haine et plus encore.