Vendredi, des chercheurs de Nvidia, UPenn, Caltech et de l’Université du Texas à Austin ont annoncé Eureka, un algorithme qui utilise le modèle de langage GPT-4 d’OpenAI pour concevoir des objectifs d’entraînement (appelés « fonctions de récompense ») afin d’améliorer la dextérité des robots. Le travail vise à combler le fossé entre le raisonnement de haut niveau et le contrôle moteur de bas niveau, en permettant aux robots d’apprendre rapidement des tâches complexes à l’aide de simulations massivement parallèles qui effectuent des essais simultanément. Selon l’équipe, Eureka surpasse considérablement les fonctions de récompense écrites par l’homme.
Avant que les robots puissent interagir avec succès avec le monde réel, ils doivent apprendre à déplacer leur corps de robot pour atteindre leurs objectifs, comme ramasser des objets ou se déplacer. Au lieu de demander à un robot physique d’essayer et d’échouer une tâche à la fois pour apprendre dans un laboratoire, les chercheurs de Nvidia ont expérimenté l’utilisation de mondes informatiques de type jeu vidéo (grâce à des plates-formes appelées Isaac Sim et Isaac Gym) qui simulent des objets en trois dimensions. la physique. Ceux-ci permettent d’organiser des sessions de formation massivement parallèles dans de nombreux mondes virtuels à la fois, accélérant considérablement le temps de formation.
« En tirant parti de la simulation accélérée par GPU de pointe dans Nvidia Isaac Gym », écrit Nvidia sur sa page de démonstration, « Eureka est capable d’évaluer rapidement la qualité d’un grand nombre de candidats à la récompense, permettant ainsi une recherche évolutive dans la fonction de récompense. espace. » Ils appellent cela « une évaluation rapide des récompenses via un apprentissage par renforcement massivement parallèle ».
Les chercheurs décrivent Eureka comme une « architecture hybride à gradient », ce qui signifie essentiellement qu’il s’agit d’un mélange de deux modèles d’apprentissage différents. Un réseau neuronal de bas niveau dédié au contrôle des moteurs de robots prend les instructions d’un grand modèle de langage (LLM) de haut niveau, uniquement inférentiel, comme GPT-4. L’architecture utilise deux boucles : une boucle externe utilisant GPT-4 pour affiner la fonction de récompense et une boucle interne pour l’apprentissage par renforcement afin d’entraîner le système de contrôle du robot.
La recherche est détaillée dans un nouveau document de recherche préimprimé intitulé « Eureka : Human-Level Reward Design via Coding Large Language Models ». Les auteurs Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi « Jim » Fan et Anima Anandkumar ont utilisé Isaac Gym, un simulateur physique accéléré par GPU, pour accélérer le processus d’entraînement physique d’un facteur 1 000. Dans le résumé de l’article, les auteurs affirment qu’Eureka a surpassé les récompenses d’experts conçues par l’homme dans 83 % d’une suite de 29 tâches de référence sur 10 robots différents, améliorant les performances de 52 % en moyenne.
De plus, Eureka introduit une nouvelle forme d’apprentissage par renforcement à partir du feedback humain (RLHF), permettant au feedback en langage naturel d’un opérateur humain d’influencer la fonction de récompense. Cela pourrait servir de « puissant copilote » pour les ingénieurs concevant des comportements moteurs sophistiqués pour les robots, selon un article X du chercheur Fan de Nvidia AI, qui est un auteur répertorié dans le document de recherche Eureka. Selon Fan, une réalisation surprenante est qu’Eureka a permis aux robots d’effectuer des tours de stylo, une compétence difficile à animer même pour les artistes CGI.
Alors qu’est-ce que tout cela signifie ? À l’avenir, l’enseignement de nouvelles astuces aux robots se fera probablement à un rythme accéléré grâce à des simulations massivement parallèles, avec l’aide de modèles d’IA capables de superviser le processus de formation. Les derniers travaux sont adjacents aux expériences précédentes utilisant des modèles de langage pour contrôler les robots de Microsoft et de Google.
Sur X, Shital Shah, ingénieur de recherche principal chez Microsoft Research, a écrit que l’approche Eureka semble être une étape clé vers la réalisation du plein potentiel de l’apprentissage par renforcement : « La boucle de rétroaction positive proverbiale de l’auto-amélioration pourrait être à nos portes et nous permettra d’aller au-delà des données et des capacités de formation humaine. »
L’équipe Eureka a rendu ses recherches et sa base de code accessibles au public pour des expérimentations plus approfondies et sur lesquelles les futurs chercheurs peuvent s’appuyer. L’article est accessible sur arXiv et le code est disponible sur GitHub.