Cette IA a utilisé GPT-4 pour devenir un joueur expert de Minecraft

Les chercheurs en IA ont construit un bot Minecraft qui peut explorer et étendre ses capacités dans le monde ouvert du jeu – mais contrairement à d’autres bots, celui-ci a essentiellement écrit son propre code par essais et erreurs et beaucoup des requêtes GPT-4.

Appelé Voyager, ce système expérimental est un exemple d’« agent incarné », une IA qui peut se déplacer et agir librement et de manière ciblée dans un environnement simulé ou réel. Les IA et les chatbots de type assistant personnel n’ont pas à faire des choses, et encore moins à naviguer dans un monde complexe pour faire ces choses. Mais c’est exactement ce qu’un robot domestique pourrait faire à l’avenir, il y a donc beaucoup de recherches sur la façon dont ils pourraient le faire.

Minecraft est un bon endroit pour tester de telles choses car c’est une représentation très (très) approximative du monde réel, avec des règles et une physique simples et directes, mais c’est aussi suffisamment complexe et ouvert pour qu’il y ait beaucoup à accomplir ou à essayer. Les simulateurs spécialement conçus sont également excellents, mais ils ont leurs propres limites.

MineDojo est un cadre de simulation construit autour de Minecraft, car vous ne pouvez pas simplement y planter une IA aléatoire et vous attendre à ce qu’elle comprenne ce que font tous ces blocs et ces cochons. Ses créateurs (beaucoup de chevauchements avec l’équipe Voyager) ont rassemblé des vidéos YouTube sur le jeu, des transcriptions, des articles wiki et de nombreux messages Reddit de r/minecraft, entre autres données, afin que les utilisateurs puissent créer ou affiner une IA. modèle sur eux. Cela permet également d’évaluer ces modèles plus ou moins objectivement en voyant dans quelle mesure ils font des choses comme construire une clôture autour d’un lama ou trouver et extraire un diamant.

Voyager excelle dans ces tâches, performant bien mieux que le seul autre modèle qui s’en rapproche, Auto-GPT. Mais ils ont une approche similaire : utiliser GPT-4 pour écrire leur propre code au fur et à mesure.

Normalement, vous devez simplement former un modèle sur toutes ces bonnes données Minecraft et espérer qu’il trouvera comment combattre les squelettes lorsque le soleil se couche. Voyager, cependant, commence relativement naïf, et lorsqu’il rencontre des choses dans le jeu, il a une petite conversation interne avec GPT-4 sur ce qu’il doit faire et comment.

Diriger l’action suivante et ajouter des compétences à la pile. Crédits image : MineDojo

Par exemple, la nuit tombe et ces squelettes sortent. L’agent en a une idée générale, mais il se demande : Que ferait un bon joueur de ce jeu quand il y a des monstres à proximité ? Eh bien, dit GPT-4, si vous voulez explorer le monde en toute sécurité, vous voudrez fabriquer et équiper une épée, puis frapper le squelette avec tout en évitant d’être touché. Et ce sens général de ce qu’il faut faire se traduit par des objectifs concrets : collecter de la pierre et du bois, construire une épée à la table d’artisanat, l’équiper et combattre un squelette.

Une fois ces choses faites, elles sont entrées dans une bibliothèque de compétences générales afin que plus tard, lorsque la tâche est « d’aller au fond d’une grotte pour trouver du minerai de fer », elle n’ait pas à réapprendre à se battre à partir de zéro. Il utilise toujours le GPT, mais il utilise le GPT-3.5 moins cher et plus rapide, qui lui indique les compétences les plus pertinentes pour une situation donnée – il n’essaie donc pas d’exploiter le squelette et de combattre le minerai.

C’est similaire à un agent comme Auto-GPT qui, face à une interface qu’il ne connaît pas encore, doit apprendre à s’y retrouver pour atteindre son objectif. Mais Minecraft est un environnement beaucoup plus profond que celui auquel il est habitué à résoudre, donc un agent spécialisé comme Voyager fait beaucoup mieux. Il trouve plus de choses, apprend plus de compétences et explore une zone beaucoup plus vaste que les autres robots.

Fait intéressant mais peut-être pas surprenant, GPT-4 efface le sol avec GPT-3.5 (c’est-à-dire ChatGPT) lorsqu’il s’agit de générer du code utile. Un test remplaçant le premier par le second a fait que l’agent s’est heurté à un mur dès le début, peut-être même littéralement, et n’a pas réussi à s’améliorer. Il n’est peut-être pas évident de parler aux deux modèles que l’un est beaucoup plus intelligent, mais la vérité est que vous n’avez pas besoin d’être particulièrement intelligent pour mener une conversation apparemment intelligente (demandez-moi comment je sais). Le codage est beaucoup plus difficile et GPT-4 était une grosse mise à jour là-bas.

Le but de cette recherche n’est pas de rendre les joueurs de Minecraft obsolètes, mais de trouver des méthodes par lesquelles des modèles d’IA relativement simples peuvent s’améliorer en fonction de leurs «expériences», faute d’un meilleur mot. Si nous voulons que des robots nous aident dans nos maisons, nos hôpitaux et nos bureaux, ils devront apprendre et appliquer ces leçons aux actions futures.

Vous pouvez en savoir plus sur Voyager ici.

Source-146