La nouvelle IA de Google DeepMind peut suivre des commandes dans des jeux 3D qu’elle n’a jamais vues auparavant

a dévoilé de nouvelles recherches mettant en avant un agent IA capable d’effectuer une série de tâches dans des jeux 3D qu’il n’a jamais vues auparavant. L’équipe expérimente depuis longtemps des modèles d’IA capables de gagner aux échecs, et même d’apprendre des jeux. Aujourd’hui, pour la première fois, selon DeepMind, un agent IA a montré qu’il est capable de comprendre un large éventail de mondes de jeu et d’y effectuer des tâches basées sur des instructions en langage naturel.

Les chercheurs se sont associés à des studios et des éditeurs comme Hello Games (), Laboratoires de smoking () et Tache de café ( et ) pour former le Scalable Instructable Multiworld Agent (SIMA) sur neuf jeux. L’équipe a également utilisé quatre environnements de recherche, dont un intégré à Unity dans lequel les agents doivent former des sculptures à l’aide de blocs de construction. Cela a donné à SIMA, décrit comme « un agent d’IA généraliste pour les environnements virtuels 3D », une gamme d’environnements et de paramètres à partir desquels apprendre, avec une variété de styles graphiques et de perspectives (à la première et à la troisième personne).

« Chaque jeu du portefeuille SIMA ouvre un nouveau monde interactif, comprenant une gamme de compétences à acquérir, depuis la simple navigation et l’utilisation des menus jusqu’à l’exploitation minière des ressources, le pilotage d’un vaisseau spatial ou la fabrication d’un casque », ont écrit les chercheurs dans un article de blog. Apprendre à suivre des instructions pour de telles tâches dans les mondes du jeu vidéo pourrait conduire à des agents d’IA plus utiles dans n’importe quel environnement, ont-ils noté.

Un organigramme détaillant comment Google DeepMind a formé son agent SIMA AI.  L’équipe a utilisé une vidéo de gameplay et l’a associée aux entrées du clavier et de la souris pour que l’IA puisse en tirer des leçons.

Google DeepMind

Les chercheurs ont enregistré des humains jouant aux jeux et ont noté les entrées du clavier et de la souris utilisées pour effectuer des actions. Ils ont utilisé ces informations pour former SIMA, qui dispose d’un « mappage précis du langage image et d’un modèle vidéo qui prédit ce qui se passera ensuite à l’écran ». L’IA est capable de comprendre une gamme d’environnements et d’effectuer des tâches pour atteindre un certain objectif.

Les chercheurs affirment que SIMA n’a pas besoin du code source d’un jeu ni d’un accès API : il fonctionne sur les versions commerciales d’un jeu. Il n’a également besoin que de deux entrées : ce qui est affiché à l’écran et les instructions de l’utilisateur. Puisqu’il utilise la même méthode de saisie au clavier et à la souris qu’un humain, DeepMind affirme que SIMA peut fonctionner dans presque tous les environnements virtuels.

L’agent est évalué sur des centaines de compétences de base qui peuvent être exécutées en 10 secondes environ dans plusieurs catégories, notamment la navigation (« tourner à droite »), l’interaction avec des objets (« ramasser des champignons ») et des tâches basées sur des menus, comme ouvrir une carte ou fabriquer un objet. À terme, DeepMind espère pouvoir ordonner aux agents d’effectuer des tâches plus complexes et en plusieurs étapes basées sur des invites en langage naturel, telles que « trouver des ressources et construire un camp ».

En termes de performances, le SIMA s’en sort bien sur un certain nombre de critères de formation. Les chercheurs ont formé l’agent dans un jeu (disons Chèvre Simulateur 3, par souci de clarté) et lui a fait jouer le même titre, en l’utilisant comme référence pour les performances. Un agent SIMA formé sur les neuf jeux a obtenu de bien meilleurs résultats qu’un agent formé uniquement sur Chèvre Simulateur 3.

Graphique montrant les performances relatives de l'agent SIMA AI de Google DeepMind en fonction de différentes données d'entraînement.Graphique montrant les performances relatives de l'agent SIMA AI de Google DeepMind en fonction de différentes données d'entraînement.

Google DeepMind

Ce qui est particulièrement intéressant, c’est qu’une version de SIMA qui a été entraînée dans les huit autres jeux puis qui a joué à l’autre a été en moyenne presque aussi performante qu’un agent qui s’est entraîné uniquement sur ce dernier. « Cette capacité à fonctionner dans des environnements totalement nouveaux met en évidence la capacité du SIMA à généraliser au-delà de sa formation », a déclaré DeepMind. « Il s’agit d’un premier résultat prometteur, mais des recherches supplémentaires sont nécessaires pour que SIMA fonctionne au niveau humain dans les jeux visibles et invisibles. »

Toutefois, pour que SIMA soit un véritable succès, une saisie linguistique est nécessaire. Dans les tests où un agent n’a pas reçu de formation linguistique ni d’instructions, il a (par exemple) effectué l’action courante de rassembler des ressources au lieu de marcher là où on lui a demandé. Dans de tels cas, SIMA « se comporte de manière appropriée mais sans but », ont indiqué les chercheurs. Donc, il ne s’agit pas seulement de nous, simples mortels. Les modèles d’intelligence artificielle ont également parfois besoin d’un petit coup de pouce pour accomplir correctement leur travail.

DeepMind note qu’il s’agit d’une recherche à un stade précoce et que les résultats « montrent le potentiel de développer une nouvelle vague d’agents d’IA généralistes et axés sur le langage ». L’équipe s’attend à ce que l’IA devienne plus polyvalente et généralisable à mesure qu’elle est exposée à davantage d’environnements de formation. Les chercheurs espèrent que les futures versions de l’agent amélioreront la compréhension de SIMA et sa capacité à effectuer des tâches plus complexes. « En fin de compte, nos recherches s’orientent vers des systèmes et des agents d’IA plus généraux, capables de comprendre et d’effectuer en toute sécurité un large éventail de tâches d’une manière utile aux personnes en ligne et dans le monde réel », a déclaré DeepMind.

Source-145