La vitesse de développement de l’IA dépasse l’évaluation des risques

Agrandir / Google, Anthropic, Cohere et Mistral ont chacun publié des modèles d’IA au cours des deux derniers mois dans le but de renverser OpenAI du haut du classement public.

FT

La puissance croissante des derniers systèmes d’intelligence artificielle pousse les méthodes d’évaluation traditionnelles jusqu’au point de rupture, posant un défi aux entreprises et aux organismes publics quant à la meilleure façon de travailler avec une technologie en évolution rapide.

Des failles dans les critères d’évaluation couramment utilisés pour évaluer les performances, la précision et la sécurité sont révélées à mesure que de plus en plus de modèles arrivent sur le marché, selon les personnes qui construisent, testent et investissent dans des outils d’IA. Les outils traditionnels sont faciles à manipuler et trop étroits pour la complexité des derniers modèles, ont-ils déclaré.

La course technologique accélérée déclenchée par la sortie en 2022 du chatbot ChatGPT d’OpenAI et alimentée par des dizaines de milliards de dollars provenant d’investisseurs en capital-risque et de grandes entreprises technologiques, telles que Microsoft, Google et Amazon, a effacé de nombreux critères plus anciens permettant d’évaluer les progrès de l’IA.

« Un benchmark public a une durée de vie », a déclaré Aidan Gomez, fondateur et directeur général de la start-up d’IA Cohere. « C’est utile jusqu’à ce que les gens aient optimisé [their models] à lui ou à jouer avec lui. Cela prenait quelques années ; maintenant, cela fait quelques mois.

Google, Anthropic, Cohere et Mistral ont chacun publié des modèles d’IA au cours des deux derniers mois dans le but de détrôner OpenAI, soutenu par Microsoft, du sommet du classement public des grands modèles de langage (LLM), qui sous-tendent des systèmes tels que ChatGPT.

De nouveaux systèmes d’IA émergent régulièrement et peuvent « complètement surpasser » les références existantes, a déclaré Gomez. « À mesure que les modèles s’améliorent, les capacités rendent ces évaluations obsolètes », a-t-il déclaré.

Le problème de l’évaluation des LLM s’est déplacé du monde universitaire vers les conseils d’administration, l’IA générative étant devenue la principale priorité d’investissement de 70 % des PDG, selon une enquête de KPMG menée auprès de plus de 1 300 PDG mondiaux.

« Les gens n’utiliseront pas une technologie en laquelle ils n’ont pas confiance », a déclaré Shelley McKinley, directrice juridique de GitHub, un référentiel de code appartenant à Microsoft. « Il incombe aux entreprises de proposer des produits fiables. »

Les gouvernements ont également du mal à déployer et à gérer les risques liés aux derniers modèles d’IA. La semaine dernière, les États-Unis et le Royaume-Uni ont signé un accord bilatéral historique sur la sécurité de l’IA, s’appuyant sur les nouveaux instituts d’IA que les deux pays ont créés l’année dernière pour « minimiser les surprises… liées aux progrès rapides et inattendus de l’IA ».

L’année dernière, le président américain Joe Biden a publié un décret appelant les organismes gouvernementaux, dont l’Institut national des normes et de la technologie, à produire des références pour évaluer les risques des outils d’IA.

Qu’il s’agisse d’évaluer la sécurité, les performances ou l’efficacité, les groupes chargés de tester les systèmes d’IA se précipitent pour suivre l’état de l’art.

« La décision de haut niveau que prennent de nombreuses entreprises est la suivante : devrions-nous utiliser un LLM et lequel devrions-nous utiliser ? » a déclaré Rishi Bommasani, qui dirige une équipe au Stanford Center for Research on Foundation Models.

L’équipe de Bommasani a développé l’évaluation holistique des modèles linguistiques, qui teste, entre autres critères, le raisonnement, la mémorisation et la susceptibilité à la désinformation.

D’autres systèmes publics incluent le benchmark Massive Multitask Language Understanding, un ensemble de données construit en 2020 par des étudiants de Berkeley pour tester des modèles sur des questions provenant de 57 domaines. HumanEval en est un autre, qui évalue la capacité de codage à travers 164 problèmes de programmation.

Cependant, les évaluations ont du mal à suivre la sophistication des modèles d’IA actuels, capables d’exécuter une série de tâches connectées sur un long horizon. Des tâches aussi complexes sont plus difficiles à évaluer dans des environnements contrôlés.

« La première chose à reconnaître est qu’il est très difficile d’évaluer correctement les modèles de la même manière qu’il est très difficile d’évaluer correctement les humains », a déclaré Mike Volpi, associé de la société de capital-risque Index Ventures. « Si vous regardez une chose comme « pouvez-vous sauter haut ou courir vite ? c’est facile. Mais l’intelligence humaine ? C’est une tâche presque impossible.

Une autre préoccupation croissante concernant les tests publics est que les données de formation des modèles peuvent inclure les questions précises utilisées dans les évaluations.

« Ce n’est peut-être pas une tricherie délibérée ; cela pourrait être plus inoffensif », a déclaré Bommasani de Stanford. « Mais nous apprenons encore comment limiter ce problème de contamination entre ce sur quoi les modèles sont formés et ce sur quoi ils sont testés. »

Les références sont « très monolithiques », a-t-il ajouté. « Nous évaluons la puissance des LLM, mais votre évaluation en tant qu’entreprise va bien plus loin. Vous devez prendre en compte le coût [and] si vous voulez de l’open source [where code is publicly available] ou source fermée.

Hugging Face, une startup de 4,5 milliards de dollars qui fournit des outils pour développer l’IA et est une plateforme influente pour les modèles open source, héberge un classement appelé LMSys, qui classe les modèles en fonction de leur capacité à réaliser des tests sur mesure définis par des utilisateurs individuels, plutôt que sur un ensemble fixe. de questions. En conséquence, il capture plus directement les préférences réelles des utilisateurs.

Ce classement est utile pour les utilisateurs individuels, mais d’une utilité plus limitée pour les entreprises, qui auront des exigences spécifiques en matière de modèles d’IA, a déclaré Gomez de Cohere.

Au lieu de cela, il recommande aux entreprises de créer « un ensemble de tests internes, qui n’a besoin que de centaines d’exemples, et non de milliers ».

« Nous disons toujours que l’évaluation humaine est la meilleure », a-t-il déclaré. «C’est la manière la plus représentative et la plus efficace de juger les performances.»

Les choix de modèles des entreprises individuelles relèvent autant de l’art que de la science, a déclaré Volpi d’Index Ventures.

« Ces paramètres sont comme lorsque vous achetez une voiture et qu’elle a telle puissance et tel couple et qu’elle roule de 0 à 100 km/h », a-t-il déclaré. « La seule façon de vraiment décider de l’acheter est de l’emmener faire un tour en voiture. »

© 2024 The Financial Times Ltd. Tous droits réservés. Ne pas être redistribué, copié ou modifié de quelque manière que ce soit.

Source-147