Un nouveau modèle d’IA « apprend » à simuler Super Mario Bros. à partir de séquences vidéo

À première vue, ces images générées par l’IA Super Mario Bros. Les vidéos sont assez impressionnantes. Cependant, plus vous les regardez, plus vous verrez de problèmes.

Le mois dernier, le modèle d’IA GameNGen de Google a montré que des techniques de diffusion d’images généralisées peuvent être utilisées pour générer une version passable et jouable de Perte. Aujourd’hui, les chercheurs utilisent des techniques similaires avec un modèle appelé MarioVGG pour voir si un modèle d’IA peut générer une vidéo plausible de Super Mario Bros. en réponse aux entrées de l’utilisateur.

Les résultats du modèle MarioVGG, disponibles sous forme d’un article pré-imprimé publié par la société d’IA Virtuals Protocol, spécialisée dans les crypto-monnaies, présentent encore de nombreux problèmes apparents et sont trop lents pour se rapprocher du gameplay en temps réel pour le moment. Mais les résultats montrent comment même un modèle limité peut déduire des dynamiques physiques et de gameplay impressionnantes simplement en étudiant un peu de vidéo et de données d’entrée.

Les chercheurs espèrent que cela représente une première étape vers « la production et la démonstration d’un générateur de jeux vidéo fiable et contrôlable », ou peut-être même « le remplacement complet du développement de jeux et des moteurs de jeux à l’aide de modèles de génération vidéo » à l’avenir.

Regarder 737 000 images de Mario

Pour former leur modèle, les chercheurs de MarioVGG (les utilisateurs de GitHub erniechew et Brian Lim sont répertoriés comme contributeurs) ont commencé avec un ensemble de données publiques de Super Mario Bros. Un jeu contenant 280 « niveaux » de données d’entrée et d’image organisées à des fins d’apprentissage automatique (le niveau 1-1 a été supprimé des données d’entraînement afin que les images puissent être utilisées dans l’évaluation). Les plus de 737 000 images individuelles de cet ensemble de données ont été « prétraitées » en 35 blocs d’images afin que le modèle puisse commencer à apprendre à quoi ressemblaient généralement les résultats immédiats de diverses entrées.

Pour « simplifier la situation de jeu », les chercheurs ont décidé de se concentrer uniquement sur deux entrées potentielles dans l’ensemble de données : « courir à droite » et « courir à droite et sauter ». Même cet ensemble limité de mouvements a présenté quelques difficultés pour le système d’apprentissage automatique, car le préprocesseur devait regarder en arrière pendant quelques images avant un saut pour déterminer si et quand la « course » avait commencé. Tous les sauts qui incluaient des ajustements en plein vol (c’est-à-dire le bouton « gauche ») ont également dû être éliminés car « cela introduirait du bruit dans l’ensemble de données d’entraînement », écrivent les chercheurs.

Après un prétraitement (et environ 48 heures d’entraînement sur une seule carte graphique RTX 4090), les chercheurs ont utilisé un processus standard de convolution et de débruitage pour générer de nouvelles images vidéo à partir d’une image de départ de jeu statique et d’une entrée de texte (soit « courir » soit « sauter » dans ce cas limité). Bien que ces séquences générées ne durent que quelques images, la dernière image d’une séquence peut être utilisée comme la première d’une nouvelle séquence, créant ainsi des vidéos de jeu de n’importe quelle longueur qui montrent toujours « un gameplay cohérent et cohérent », selon les chercheurs.

Source-147