Le directeur technique de Microsoft, Kevin Scott, estime que les « lois de mise à l’échelle » du LLM tiendront malgré les critiques

Agrandir / Kevin Scott, CTO et EVP de l’IA chez Microsoft, s’exprime sur scène lors de la conférence Code 2023 de Vox Media au Ritz-Carlton, Laguna Niguel, le 27 septembre 2023 à Dana Point, Californie.

Lors d’une interview accordée au podcast Training Data de Sequoia Capital et publiée mardi dernier, le directeur technique de Microsoft, Kevin Scott, a réitéré sa conviction que les « lois de mise à l’échelle » du modèle de langage à grande échelle (LLM) continueront de stimuler les progrès de l’IA, malgré un certain scepticisme dans le domaine quant à la stabilisation des progrès. Scott a joué un rôle clé dans la conclusion d’un accord de partage de technologie de 13 milliards de dollars entre Microsoft et OpenAI.

« Malgré ce que pensent les autres, nous ne sommes pas en train de réduire les rendements marginaux en cas de mise à l’échelle », a déclaré Scott. « Et j’essaie d’aider les gens à comprendre qu’il s’agit d’une évolution exponentielle, et le plus malheureux est que nous ne pouvons l’échantillonner que tous les deux ans, car il faut un certain temps pour construire des superordinateurs et ensuite former des modèles dessus. »

Les lois d’échelle LLM font référence à des modèles explorés par les chercheurs d’OpenAI en 2020, qui montrent que les performances des modèles linguistiques ont tendance à s’améliorer de manière prévisible à mesure que les modèles deviennent plus grands (plus de paramètres), sont formés sur plus de données et ont accès à plus de puissance de calcul (calcul). Ces lois suggèrent que le simple fait d’augmenter la taille du modèle et les données de formation peut conduire à des améliorations significatives des capacités de l’IA sans nécessairement nécessiter de percées algorithmiques fondamentales.

Depuis lors, d’autres chercheurs ont remis en question l’idée de maintenir les lois d’échelle au fil du temps, mais le concept reste la pierre angulaire de la philosophie de développement de l’IA d’OpenAI.

Vous pouvez voir les commentaires de Scott dans la vidéo ci-dessous à partir de 46:05 environ :

Kevin Scott, directeur technique de Microsoft, explique jusqu’où s’étendront les lois sur la mise à l’échelle

L’optimisme de Scott contraste avec le discours de certains critiques de la communauté de l’IA selon lequel les progrès des LLM ont stagné autour des modèles de classe GPT-4. Cette perception a été alimentée par des observations largement informelles – et certains résultats de référence – sur des modèles récents comme Gemini 1.5 Pro de Google, Claude Opus d’Anthropic et même GPT-4o d’OpenAI, qui, selon certains, n’ont pas montré les progrès spectaculaires en termes de capacités observés dans les générations précédentes, et selon lesquels le développement des LLM pourrait s’approcher de rendements décroissants.

« Nous savons tous que GPT-3 était bien meilleur que GPT-2. Et nous savons tous que GPT-4 (sorti il ​​y a treize mois) était bien meilleur que GPT-3 », a écrit Gary Marcus, critique de l’intelligence artificielle, en avril. « Mais que s’est-il passé depuis ? »

La perception du plateau

La position de Scott suggère que les géants de la technologie comme Microsoft se sentent toujours justifiés d’investir massivement dans des modèles d’IA de plus grande envergure, en misant sur des avancées continues plutôt que sur un plateau de capacités. Compte tenu de l’investissement de Microsoft dans OpenAI et du marketing fort de ses propres fonctionnalités Microsoft Copilot AI, l’entreprise a tout intérêt à maintenir la perception de progrès continus, même si la technologie stagne.

Ed Zitron, critique fréquent de l’intelligence artificielle, a récemment écrit dans un billet sur son blog qu’un argument pour défendre l’investissement continu dans l’IA générative est que « OpenAI a quelque chose que nous ignorons. Une technologie importante, sexy et secrète qui brisera éternellement les os de tous les ennemis », a-t-il écrit. « Pourtant, j’ai un contre-argument : non, ce n’est pas le cas. »

Certains pensent que les progrès en matière de capacités et d’analyse comparative des LLM ralentissent, ce qui peut être dû à l’apparition rapide de l’IA dans l’opinion publique, alors qu’en réalité, les LLM se développent depuis des années. OpenAI a continué à développer des LLM pendant un intervalle d’environ trois ans entre la sortie de GPT-3 en 2020 et celle de GPT-4 en 2023. De nombreuses personnes ont probablement perçu une augmentation rapide des capacités avec le lancement de GPT-4 en 2023, car elles n’avaient pris connaissance des modèles de classe GPT-3 que récemment avec le lancement de ChatGPT fin novembre 2022, qui utilisait GPT-3.5.

Dans l’interview du podcast, le directeur technique de Microsoft a rejeté l’idée selon laquelle les progrès de l’IA stagnent, mais il a reconnu le défi que représentent les points de données peu fréquents dans ce domaine, car les nouveaux modèles prennent souvent des années à se développer. Malgré cela, Scott s’est dit confiant que les itérations futures montreront des améliorations, en particulier dans les domaines où les modèles actuels ont du mal à fonctionner.

« Le prochain échantillon arrive, et je ne peux pas vous dire quand, et je ne peux pas prédire exactement à quel point il sera bon, mais il sera presque certainement meilleur pour les choses qui sont fragiles en ce moment, où vous vous dites, oh mon dieu, c’est un peu trop cher, ou un peu trop fragile, pour que je puisse l’utiliser », a déclaré Scott dans l’interview. « Tout cela s’améliore. Il deviendra moins cher et les choses deviendront moins fragiles. Et puis des choses plus compliquées deviendront possibles. C’est l’histoire de chaque génération de ces modèles à mesure que nous avons évolué. »

Source-147