Video game competitions effectively showcase player skill levels, and the Hao AI Lab at UC San Diego is applying this concept to artificial intelligence by testing advanced language models like GPT-4.5 and Gemini-2.0-flash in Super Mario. The lab’s approach involves instructing AI agents to control Mario and prioritize survival. While past experiments with AI in gaming exist, the current project highlights the significance of processing speed in real-time gameplay, raising questions about the effectiveness of video games as evaluation tools for AI.
Les compétitions de jeux vidéo et l’intelligence artificielle
Les compétitions de jeux vidéo constituent un excellent moyen de distinguer les niveaux de compétence des joueurs. Mais peut-on appliquer ce même principe à l’intelligence artificielle (IA) ? C’est exactement le défi que relève le Hao AI Lab, une organisation rattachée à l’Université de Californie, San Diego. Depuis fin février, ce laboratoire met les grands modèles de langage à l’épreuve sur… Super Mario.
Des modèles de langage dans un univers de jeu
Un tweet du Hao AI Lab, daté du 2 mars, a annoncé la couleur : “De nouveaux résultats viennent de tomber ! Nous avons intégré GPT-4.5 et Gemini-2.0-flash dans nos agents de jeu. […] GPT-4.5 rencontre des difficultés à cause d’une latence élevée, tandis que Gemini-2.0-flash est nettement plus performant que Gemini-1.5-pro, rivalisant avec Claude-3.5.”
Pour ceux qui suivent de près l’actualité de l’IA générative, ces noms ne sont pas inconnus : ils désignent des modèles de langage développés par des entreprises comme Google (Gemini), OpenAI (GPT) ou Anthropic (Claude). Ces modèles alimentent des chatbots, tels que ChatGPT, en suivant des règles mathématiques pour comprendre le langage.
Les versions citées ici figurent parmi les plus avancées disponibles sur le marché aujourd’hui. Par exemple, GPT-4.5 a été lancé récemment, le 27 février, et Gemini-2.0 a vu le jour le 6 février. Quant à Claude-3.5, il est opérationnel depuis octobre 2024, avec une version mise à jour, Claude-3.7, lancée fin février.
Il est surprenant de voir des modèles spécialisés dans le traitement du langage évoluer dans un contexte de jeu vidéo, tant les différences entre ces deux “univers” semblent marquées. Cependant, l’équipe du Hao AI Lab a mis au point une méthode pour relier ces modèles au jeu.
Les instructions données à l’IA incluent des éléments généraux comme : “Vous êtes un agent intelligent contrôlant Mario, cherchant et exécutant le chemin optimal en fonction de l’état du jeu. Priorisez la survie plutôt que la vitesse.” Ces directives précisent également les comportements à adopter.
Comme le souligne Techcrunch, il ne s’agit pas d’une simple copie de Super Mario Bros, le célèbre jeu sorti sur NES en 1985. Le projet utilise un émulateur intégré dans un cadre spécifique appelé GamingAging, permettant de contrôler Mario via des systèmes d’IA.
Il convient de noter que l’expérimentation du Hao AI Lab n’est pas fondamentalement nouvelle. En 2013, un informaticien avait déjà conçu une IA capable de jouer à des jeux NES, dont Super Mario Bros, en se basant sur l’analyse de la mémoire de la console. Deux ans plus tard, des universitaires avaient présenté une IA capable de générer des niveaux pour Super Mario Bros que les joueurs pouvaient explorer. L’idée a été reprise dix ans plus tard avec MarioGPT, s’appuyant sur les avancées réalisées en IA générative.
Plus récemment, une initiative dirigée par Anthropic depuis juin 2024 a permis de tester un chatbot basé sur l’IA générative jouant à Pokémon, débutant avec Claude 3.5 avant de passer à la version la plus récente (Claude 3.7).
Selon le Hao AI Lab, ses expériences impliquent, en plus des modèles mentionnés précédemment, Claude 3.7, Gemini-1.5-pro, et plusieurs séries de la famille ChatGPT (GPT-4o, GPT-4o-mini, et o1). Tous ces modèles sont relativement récents, avec des lancements s’étalant de 2024 à 2025.
La rapidité de traitement est essentielle. Les résultats préliminaires indiquent que les systèmes d’IA plus rapides dans le traitement de l’information obtiennent de meilleurs résultats. Les modèles dits de “raisonnement”, qui prennent un peu plus de temps pour fonctionner, rencontrent plus de difficultés avec des jeux en temps réel. Une bonne performance nécessite souvent des réactions rapides.
Cette lenteur relative observée chez les modèles de “raisonnement” se traduit souvent par quelques secondes d’attente, un délai coûteux dans un jeu de plateforme comme Super Mario Bros, où il faut enchaîner rapidement les mouvements pour surmonter les obstacles et éviter ou vaincre les ennemis.
En revanche, les systèmes rapides semblent avoir un avantage. Philipp Schmid, un informaticien de DeepMind, une filiale de Google, a souligné que “Gemini 2.0 Flash peut jouer à Super Mario en temps réel grâce à sa faible latence.” Ce fut également l’occasion de faire valoir ses propres résultats.
Cependant, la pertinence d’utiliser des jeux vidéo pour évaluer les IA, notamment en comparaison les unes avec les autres, suscite des débats et des scepticismes. De nombreuses entreprises du secteur utilisent des métriques différentes pour évaluer et se comparer.
Malgré tout, l’évaluation via les jeux vidéo a l’avantage d’être très visuelle et de capter facilement l’attention, comme cela a été le cas lorsque DeepMind a formé l’IA AlphaStar pour battre des joueurs professionnels à StarCraft II. C’est aussi une manière de revisiter la confrontation quelque peu idéalisée de l’homme contre la machine.