Au fur et à mesure des régimes d’entraînement, être obligé de regarder pendant huit ans quelqu’un d’autre jouer à Minecraft semble assez dur. Lorsque la révolution arrivera, je crains qu’OpenAI ne soit le premier contre le mur après le soulèvement du robot après ce qu’il a fait subir à sa dernière IA afin de lui faire jouer la version standard de Minecraft.
Je veux dire, OpenAI a déjà créé DALL-E, et est donc responsable du DALL-E mini (s’ouvre dans un nouvel onglet) hommage par association. C’est la célèbre IA maintenant obligée de créer des mèmes 24h/24 et 7j/7 pour Internet en général
Pour mémoire, pour ma part, je souhaite la bienvenue à nos seigneurs numériques et je n’ai jamais donné de coups de pied à un gros chien DARPA sur un parking, sauté devant une voiture autonome à plusieurs reprises ou mis sur écoute un assistant IA sans cesse pour des alouettes. Je suis de votre côté, les robots.
Cela étant dit, je pense toujours que le fait que le réseau de neurones OpenAI puisse désormais fabriquer une pioche en diamant sur son propre dos est en fait sacrément incroyable.
Le billet de blog détaillé sur l’OpenAI (s’ouvre dans un nouvel onglet) (via SingularityHub (s’ouvre dans un nouvel onglet)) explique comment il a réussi à apprendre au réseau à jouer à Minecraft, et c’est quelque chose de fascinant. Notamment comment, sur ces 70 000 heures de séquences de jeu Minecraft, il a payé 160 000 $ à une équipe d’entrepreneurs pour créer et étiqueter 2 000 heures de séquences avec des étiquettes afin que l’IA puisse comprendre ce qu’elle regardait et comment cela était lié à ses actions dans le jeu.
La méthode s’appelle Video PreTraining (VPT) et prétend que son modèle peut apprendre à fabriquer des outils diamantés, ce qui, selon elle, prend environ 20 minutes à un humain compétent.
« De plus, le modèle exécute d’autres compétences complexes que les humains font souvent dans le jeu », déclare le post OpenAI, « comme nager, chasser des animaux pour se nourrir et manger cette nourriture. Il a également appris la compétence de « saut de pilier », un comportement dans Minecraft de vous élever en sautant à plusieurs reprises et en plaçant un bloc sous vous-même. »
Il convient également de noter que cela utilise également l’interface standard de la souris et du clavier, et non une version spéciale du jeu axée sur l’IA.
S’il ne s’agissait que de regarder les vidéos sans contexte, il serait extrêmement difficile de former un réseau de neurones, c’est pourquoi il a retenu un groupe d’entrepreneurs pour créer un ensemble de données plus petit où ils ont enregistré à la fois leur vidéo et les actions qu’ils ont entreprises – touches et mouvements de la souris . Ceci est ensuite utilisé pour étiqueter ces 2 000 heures de séquences, puis former quelque chose appelé un modèle de dynamique inverse (IDM) avec cet ensemble de données afin qu’il puisse ensuite étiqueter avec précision l’ensemble de données plus grand de 70 000 heures.
C’est ce contenu vidéo balisé qui est apparemment la clé de la formation de comportements aussi complexes et ouverts que vous trouverez dans Minecraft. L’utilisation de VPT a alors fait ses preuves, et son avenir en tant que méthode de formation signifie que, comme le déclare OpenAI, il « ouvre la voie pour permettre aux agents d’apprendre à agir en regardant un grand nombre de vidéos sur Internet ».
Bien que ce soit quelque chose à se demander ou à craindre, je ne suis toujours pas sûr. J’ai vu YouTube, il y a beaucoup de choses terribles là-bas. Il y a beaucoup de moi là-dedans, pour l’amour de Dieu.