Le créateur de jeux Genie de Google est ce qui se passe lorsque l’IA regarde 30 000 heures de jeux vidéo

Agrandir / Un collage de certains des « environnements interactifs » générés par Genie à partir d’images statiques ou d’invites de texte.

À ce stade, quiconque suit l’IA générative est habitué aux outils capables de générer du contenu passif et consommable sous forme de texte, d’images, de vidéo et d’audio. Le modèle Genie (pour « GENerative Interactive Environment ») récemment dévoilé par Google DeepMind fait quelque chose de complètement différent, convertissant les images en « environnements interactifs et jouables qui peuvent être facilement créés, accessibles et explorés ».

La page d’annonce Genie de DeepMind montre de nombreux exemples de GIF de jeux de plate-forme simples générés à partir d’images de départ statiques (croquis d’enfants, photographies du monde réel, etc.) ou même d’invites textuelles transmises via ImageGen2. Alors que ces GIF élégants passent sous silence certaines limitations actuelles majeures abordées dans le document de recherche complet, les chercheurs en IA sont toujours enthousiasmés par la façon dont la « modélisation fondamentale du monde » généralisable de Genie pourrait aider à dynamiser l’apprentissage automatique à l’avenir.

Sous la capuche

Bien que le résultat de Genie ressemble à première vue à ce qui pourrait provenir d’un moteur de jeu 2D de base, le modèle ne dessine pas réellement de sprites et ne code pas un jeu de plateforme jouable de la même manière qu’un développeur de jeux humain le ferait. Au lieu de cela, le système traite son (ou ses) image(s) de départ comme des images d’une vidéo et génère une meilleure estimation de ce à quoi devrait ressembler l’ensemble de l’image (ou des images) suivante(s) lorsqu’une entrée spécifique lui est donnée.

Pour établir ce modèle, Genie a commencé avec 200 000 heures de vidéos de jeux publiques sur Internet, qui ont été filtrées jusqu’à 30 000 heures de vidéo standardisées provenant de « centaines de jeux 2D ». Les images individuelles de ces vidéos ont ensuite été tokenisées dans un modèle de 200 millions de paramètres avec lequel un algorithme d’apprentissage automatique pourrait facilement fonctionner.

Une image comme celle-ci, générée via une invite de texte vers un générateur d'images, peut servir de point de départ à la construction du monde de Genie.
Agrandir / Une image comme celle-ci, générée via une invite de texte vers un générateur d’images, peut servir de point de départ à la construction du monde de Genie.

Un échantillon de mouvement interactif activé par Genie à partir de l'image de départ ci-dessus (cliquez sur "agrandir" si le GIF ne s'anime pas).
Agrandir / Un échantillon de mouvement interactif activé par Genie à partir de l’image de départ ci-dessus (cliquez sur « agrandir » si le GIF ne s’anime pas).

À partir de là, le système a généré un « modèle d’action latente » pour prédire quel type d’« actions » interactives (c’est-à-dire les pressions sur des boutons) pourrait générer de manière réalisable et cohérente le type de changements image par image observés sur tous ces jetons. Le système limite les entrées potentielles à un « espace d’action latente » de huit entrées possibles (par exemple, quatre directions du pavé directionnel plus diagonales) dans le but de « permettre la jouabilité humaine » (ce qui est logique, car les vidéos sur lesquelles il a été formé étaient tous jouables par l’homme).

Une fois le modèle d’action latente établi, Genie génère ensuite un « modèle dynamique » qui peut prendre n’importe quel nombre d’images arbitraires et d’actions latentes et générer une supposition éclairée sur ce à quoi devrait ressembler l’image suivante compte tenu de toute entrée potentielle. Ce modèle final aboutit à 10,7 milliards de paramètres entraînés sur 942 milliards de jetons, bien que les résultats de Genie suggèrent que des modèles encore plus grands généreraient de meilleurs résultats.

Des travaux antérieurs sur la génération de modèles interactifs similaires à l’aide de l’IA générative reposaient sur l’utilisation d’« étiquettes d’action de vérité terrain » ou de descriptions textuelles de données d’entraînement pour aider à guider leurs algorithmes d’apprentissage automatique. Genie se différencie de ce travail par sa capacité à « s’entraîner sans action ni annotation de texte », déduisant les actions latentes derrière une vidéo en utilisant uniquement ces heures d’images vidéo tokenisées.

« La capacité de généraliser de manière aussi significative [out-of-distribution] « Les entrées soulignent la robustesse de notre approche et la valeur de la formation sur des données à grande échelle, ce qui n’aurait pas été possible avec des actions réelles en entrée », a écrit l’équipe Genie dans son document de recherche.

Source-147