Pourquoi la plupart des benchmarks en IA nous en disent si peu

Mardi, la startup Anthropic a publié une famille de modèles d’IA générative qui, selon elle, atteignent les meilleures performances de leur catégorie. Quelques jours plus tard, son rival Inflection AI a dévoilé un modèle qui, selon lui, est proche de certains des modèles les plus performants du marché, y compris le GPT-4 d’OpenAI, en termes de qualité.

Anthropic et Inflection ne sont en aucun cas les premières entreprises d’IA à affirmer que leurs modèles ont réussi à égaler ou à battre la concurrence selon une mesure objective. Google a fait valoir la même chose pour ses modèles Gemini lors de leur sortie, et OpenAI l’a dit pour GPT-4 et ses prédécesseurs, GPT-3, GPT-2 et GPT-1. La liste continue.

Mais de quelles mesures parlent-ils ? Lorsqu’un fournisseur affirme qu’un modèle atteint des performances ou une qualité de pointe, qu’est-ce que cela signifie exactement ? Peut-être plus précisément : un modèle qui techniquement « fonctionne » mieux qu’un autre modèle sera-t-il réellement sentir amélioré de manière tangible ?

Sur cette dernière question, peu probable.

La raison – ou plutôt le problème – réside dans les références utilisées par les entreprises d’IA pour quantifier les forces – et les faiblesses d’un modèle.

Mesures ésotériques

Les références les plus couramment utilisées aujourd’hui pour les modèles d’IA – en particulier les modèles alimentés par des chatbots comme ChatGPT d’OpenAI et Claude d’Anthropic – ne parviennent pas à capturer la manière dont la personne moyenne interagit avec les modèles testés. Par exemple, un benchmark cité par Anthropic dans son annonce récente, GPQA (« A Graduate-Level Google-Proof Q&A Benchmark »), contient des centaines de questions de niveau doctorat en biologie, physique et chimie – pourtant la plupart des gens utilisent des chatbots pour des tâches comme répondre aux e-mails, rédiger des lettres de motivation et parler de leurs sentiments.

Jesse Dodge, scientifique à l’Allen Institute for AI, l’organisme à but non lucratif de recherche sur l’IA, affirme que l’industrie a atteint une « crise d’évaluation ».

« Les benchmarks sont généralement statiques et étroitement axés sur l’évaluation d’une seule capacité, comme la factualité d’un modèle dans un seul domaine, ou sa capacité à résoudre des questions à choix multiples de raisonnement mathématique », a déclaré Dodge à TechCrunch dans une interview. « De nombreux critères utilisés pour l’évaluation datent de plus de trois ans, date à laquelle les systèmes d’IA étaient principalement utilisés uniquement à des fins de recherche et n’avaient pas beaucoup d’utilisateurs réels. De plus, les gens utilisent l’IA générative de plusieurs manières : ils sont très créatifs. »

Les mauvaises mesures

Ce n’est pas que les benchmarks les plus utilisés soient totalement inutiles. Quelqu’un pose sans aucun doute des questions mathématiques de niveau doctorat à ChatGPT. Cependant, à mesure que les modèles d’IA générative se positionnent de plus en plus comme des systèmes de masse « à tout faire », les anciennes références deviennent moins applicables.

David Widder, chercheur postdoctoral à Cornell qui étudie l’IA et l’éthique, note que bon nombre des tests de référence communs en matière de compétences – depuis la résolution de problèmes mathématiques au niveau de l’école primaire jusqu’à l’identification si une phrase contient un anachronisme – ne seront jamais pertinents pour la majorité des utilisateurs.

« Les systèmes d’IA plus anciens ont souvent été construits pour résoudre un problème particulier dans un contexte (par exemple, les systèmes experts en IA médicale), ce qui rend plus possible une compréhension profondément contextuelle de ce qui constitue une bonne performance dans ce contexte particulier », a déclaré Widder à TechCrunch. « Comme les systèmes sont de plus en plus considérés comme « à usage général », cela est de moins en moins possible, c’est pourquoi nous constatons de plus en plus l’accent mis sur les tests de modèles sur une variété de références dans différents domaines.

Erreurs et autres défauts

Mis à part le désalignement avec les cas d’utilisation, on peut se demander si certains benchmarks mesurent même correctement ce qu’ils prétendent mesurer.

Une analyse de HellaSwag, un test conçu pour évaluer le raisonnement de bon sens dans les modèles, a révélé que plus d’un tiers des questions du test contenaient des fautes de frappe et des écrits « absurdes ». Autre part, MMLU (abréviation de « Massive Multitask Language Understanding »), une référence citée par des fournisseurs tels que Google, OpenAI et Anthropic comme preuve que leurs modèles peuvent raisonner à travers des problèmes logiques, pose des questions qui peuvent être résolues par mémorisation par cœur.

Testez les questions du benchmark HellaSwag.

« [Benchmarks like MMLU are] davantage sur la mémorisation et l’association de deux mots-clés », a déclaré Widder. « Je peux trouver [a relevant] article assez rapidement et répondre à la question, mais cela ne signifie pas que je comprends le mécanisme causal, ou que je pourrais utiliser une compréhension de ce mécanisme causal pour réellement raisonner et résoudre des problèmes nouveaux et complexes dans des contextes imprévus. Un mannequin non plus ne le peut pas.

Réparer ce qui est cassé

Les repères sont donc brisés. Mais peuvent-ils être réparés ?

Dodge le pense – avec plus d’implication humaine.

« La bonne voie à suivre, ici, est une combinaison de critères d’évaluation avec une évaluation humaine », a-t-elle déclaré, « en incitant un modèle avec une requête réelle de l’utilisateur, puis en embauchant une personne pour évaluer la qualité de la réponse. »

Quant à Widder, il est moins optimiste quant au fait que les benchmarks actuels – même avec des correctifs pour les erreurs les plus évidentes, comme les fautes de frappe – peuvent être améliorés au point où ils seraient informatifs pour la grande majorité des utilisateurs de modèles d’IA génératifs. Il pense plutôt que les tests de modèles devraient se concentrer sur les impacts en aval de ces modèles et sur la question de savoir si les impacts, bons ou mauvais, sont perçus comme souhaitables par les personnes concernées.

« Je demanderais à quels objectifs contextuels spécifiques nous souhaitons que les modèles d’IA puissent être utilisés et j’évaluerais s’ils réussiraient – ou sont – réussis dans de tels contextes », a-t-il déclaré. « Et j’espère que ce processus implique également d’évaluer si nous devrions utiliser l’IA dans de tels contextes. »

Source-146