Les experts d’OpenAI ont formé un réseau de neurones pour jouer Minecraft à un niveau aussi élevé que les joueurs humains.
Le réseau neuronal a été formé sur 70 000 heures de séquences diverses dans le jeu, complétées par un petit base de données de vidéos dans lesquelles des sous-traitants ont effectué des tâches spécifiques dans le jeu, avec clavier et Souris entrées également enregistrées.
Après un réglage fin, OpenAI a découvert que le modèle était capable d’effectuer toutes sortes de compétences complexes, de la natation à la chasse aux animaux et à la consommation de leur viande. Il a également saisi le «saut de pilier», un mouvement par lequel le joueur place un bloc de matériau sous lui à mi-saut afin de gagner de l’altitude.
Peut-être le plus impressionnant, l’IA a été capable de fabriquer des outils en diamant (nécessitant une longue série d’actions à exécuter en séquence), ce qu’OpenAI a décrit comme une réalisation « sans précédent » pour un agent informatique.
Une percée en IA ?
L’importance du projet Minecraft est qu’il démontre l’efficacité d’une nouvelle technique déployée par OpenAI dans la formation de modèles d’IA – appelée Video PreTraining (VPT) – qui, selon la société, pourrait accélérer le développement d' »agents utilisant des ordinateurs généraux ».
Historiquement, la difficulté d’utiliser la vidéo brute comme source pour la formation de modèles d’IA a été que cela Quel est arrivé est assez simple à comprendre, mais pas nécessairement comment. En effet, le modèle d’IA absorberait les résultats souhaités, mais ne comprendrait pas les combinaisons d’entrées nécessaires pour les atteindre.
Avec VPT, cependant, OpenAI associe un grand ensemble de données vidéo extraites de sources Web publiques à un pool de séquences soigneusement organisées et étiquetées avec les mouvements pertinents du clavier et de la souris pour établir le modèle de base.
Pour affiner le modèle de base, l’équipe intègre ensuite des ensembles de données plus petits conçus pour enseigner des tâches spécifiques. Dans ce contexte, OpenAI a utilisé des images de joueurs effectuant des actions en début de partie, telles que l’abattage d’arbres et la construction de tables d’artisanat, ce qui aurait entraîné une « amélioration massive » de la fiabilité avec laquelle le modèle a pu effectuer ces tâches.
Une autre technique consiste à « récompenser » le modèle d’IA pour la réalisation de chaque étape d’une séquence de tâches, une pratique connue sous le nom d’apprentissage par renforcement. C’est ce processus qui a permis au réseau de neurones de collecter tous les ingrédients d’une pioche en diamant avec un taux de réussite de niveau humain.
« VPT ouvre la voie pour permettre aux agents d’apprendre à agir en regardant un grand nombre de vidéos sur Internet. Par rapport à la modélisation vidéo générative ou aux méthodes contrastives qui ne produiraient que des priors de représentation, VPT offre la possibilité passionnante d’apprendre directement des priors comportementaux à grande échelle dans plus de domaines que le langage », a expliqué OpenAI dans un article de blog (s’ouvre dans un nouvel onglet).
« Bien que nous n’expérimentions que dans Minecraft, le jeu est très ouvert et l’interface humaine native (souris et clavier) est très générique, nous pensons donc que nos résultats sont de bon augure pour d’autres domaines similaires, par exemple l’utilisation d’un ordinateur. »
Pour inciter à de nouvelles expérimentations dans l’espace, OpenAI s’est associé au Concours MineRL NeurIPS, faisant don de ses données d’entrepreneur et de son code de modèle aux candidats qui tentent d’utiliser l’IA pour résoudre des tâches Minecraft complexes. Le grand prix : 100 000 $.