Mardi, des chercheurs de Google et de l’Université de Tel Aviv ont dévoilé GameNGen, un nouveau modèle d’IA capable de simuler de manière interactive le jeu de tir à la première personne classique de 1993. Perte en temps réel en utilisant des techniques de génération d’images d’IA empruntées à Stable Diffusion. Il s’agit d’un système de réseau neuronal qui peut fonctionner comme un moteur de jeu limité, ouvrant potentiellement de nouvelles possibilités pour la synthèse de jeux vidéo en temps réel à l’avenir.
Par exemple, au lieu de dessiner des images vidéo graphiques à l’aide de techniques traditionnelles, les futurs jeux pourraient potentiellement utiliser un moteur d’IA pour « imaginer » ou halluciner des graphiques en temps réel comme tâche de prédiction.
« « Le potentiel ici est absurde », a écrit le développeur d’applications Nick Dobos en réaction à la nouvelle. « Pourquoi écrire à la main des règles complexes pour un logiciel alors que l’IA peut simplement penser à chaque pixel pour vous ? »
GameNGen serait capable de générer de nouvelles images de Perte gameplay à plus de 20 images par seconde en utilisant une seule unité de traitement tenseur (TPU), un type de processeur spécialisé similaire à un GPU optimisé pour les tâches d’apprentissage automatique.
Lors des tests, les chercheurs affirment que dix évaluateurs humains n’ont parfois pas réussi à faire la distinction entre de courts extraits (1,6 seconde et 3,2 secondes) de vidéos réelles. Perte séquences de jeu et sorties générées par GameNGen, identifiant les véritables séquences de gameplay dans 58 ou 60 % des cas.
La synthèse en temps réel de jeux vidéo à l’aide de ce que l’on pourrait appeler le « rendu neuronal » n’est pas une idée totalement nouvelle. Le PDG de Nvidia, Jensen Huang, a prédit lors d’une interview en mars, peut-être avec un peu d’audace, que la plupart des graphismes de jeux vidéo pourraient être générés par l’IA en temps réel d’ici cinq à dix ans.
GameNGen s’appuie également sur des travaux antérieurs dans le domaine, cités dans l’article de GameNGen, qui incluent World Models en 2018, GameGAN en 2020 et Genie de Google en mars. Et un groupe de chercheurs universitaires a formé un modèle d’IA (appelé « DIAMOND ») pour simuler des jeux vidéo Atari vintage à l’aide d’un modèle de diffusion plus tôt cette année.
En outre, les recherches en cours sur les « modèles mondiaux » ou les « simulateurs mondiaux », généralement associés aux modèles de synthèse vidéo d’IA comme Gen-3 Alpha de Runway et Sora d’OpenAI, penchent vers une direction similaire. Par exemple, lors du lancement de Sora, OpenAI a montré des vidéos de démonstration du générateur d’IA simulant Minecraft.
La diffusion est la clé
Dans un article de recherche pré-imprimé intitulé « Les modèles de diffusion sont des moteurs de jeu en temps réel », les auteurs Dani Valevski, Yaniv Leviathan, Moab Arar et Shlomi Fruchter expliquent le fonctionnement de GameNGen. Leur système utilise une version modifiée de Stable Diffusion 1.4, un modèle de diffusion de synthèse d’images sorti en 2022 que les gens utilisent pour produire des images générées par l’IA.
« Il s’avère que la réponse à la question « peut-il fonctionner » PERTE » ? » est oui pour les modèles de diffusion », a écrit le directeur de recherche de Stability AI, Tanishq Mathew Abraham, qui n’a pas participé au projet de recherche.
Tout en étant dirigé par les entrées du joueur, le modèle de diffusion prédit le prochain état de jeu à partir des précédents après avoir été formé sur des séquences étendues de Perte en action.
Le développement de GameNGen a impliqué un processus de formation en deux phases. Dans un premier temps, les chercheurs ont formé un agent d’apprentissage par renforcement à jouer Perteavec ses sessions de jeu enregistrées pour créer un ensemble de données d’entraînement généré automatiquement, ces images que nous avons mentionnées. Ils ont ensuite utilisé ces données pour entraîner le modèle de diffusion stable personnalisé.
Cependant, l’utilisation de Stable Diffusion introduit quelques problèmes graphiques, comme le notent les chercheurs dans leur résumé : « L’auto-encodeur pré-entraîné de Stable Diffusion v1.4, qui compresse des patchs de pixels 8×8 en 4 canaux latents, génère des artefacts significatifs lors de la prédiction des images de jeu, qui affectent les petits détails et en particulier le HUD de la barre inférieure. »
Et ce n’est pas le seul défi. Garder les images visuellement claires et cohérentes au fil du temps (souvent appelée « cohérence temporelle » dans l’espace vidéo de l’IA) peut être un défi. Les chercheurs de GameNGen affirment que « la simulation de monde interactif est bien plus qu’une simple génération de vidéo très rapide », comme ils l’écrivent dans leur article. « L’obligation de conditionner un flux d’actions d’entrée qui n’est disponible que tout au long de la génération brise certaines hypothèses des architectures de modèles de diffusion existantes », notamment la génération répétée de nouvelles images basées sur les précédentes (appelée « autorégression »), ce qui peut conduire à une instabilité et à une baisse rapide de la qualité du monde généré au fil du temps.