Google présente de nouvelles méthodes pour entraîner des robots avec de la vidéo et de grands modèles de langage

2024 sera une année énorme pour l’ensemble de l’IA générative, des grands modèles fondamentaux et de la robotique. Il y a beaucoup d’enthousiasme autour du potentiel de diverses applications, allant de l’apprentissage à la conception de produits. Les chercheurs de DeepMind Robotics de Google font partie des nombreuses équipes qui explorent le potentiel de l’espace. Dans un article de blog publié aujourd’hui, l’équipe met en avant les recherches en cours visant à permettre à la robotique de mieux comprendre précisément ce que nous, les humains, attendons d’elle.

Traditionnellement, les robots se sont concentrés sur l’exécution d’une tâche unique à plusieurs reprises au cours de leur vie. Les robots à usage unique ont tendance à être très bons dans ce domaine, mais même eux rencontrent des difficultés lorsque des changements ou des erreurs sont involontairement introduits dans les procédures.

L’AutoRT récemment annoncé est conçu pour exploiter de grands modèles fondamentaux, à plusieurs fins différentes. Dans un exemple standard donné par l’équipe DeepMind, le système commence par exploiter un modèle de langage visuel (VLM) pour une meilleure connaissance de la situation. AutoRT est capable de gérer une flotte de robots travaillant en tandem et équipés de caméras pour obtenir une représentation de leur environnement et de l’objet qui s’y trouve.

Un grand modèle de langage, quant à lui, suggère des tâches qui peuvent être accomplies par le matériel, y compris son effecteur final. Beaucoup considèrent que les LLM sont la clé pour débloquer une robotique capable de comprendre efficacement davantage de commandes en langage naturel, réduisant ainsi le besoin de compétences en codage en dur.

Le système a déjà été pas mal testé au cours des sept derniers mois environ. AutoRT est capable d’orchestrer jusqu’à 20 robots à la fois et un total de 52 appareils différents. Au total, DeepMind a collecté quelque 77 000 essais, dont plus de 6 000 tâches.

Une autre nouveauté de l’équipe est RT-Trajectory, qui exploite l’entrée vidéo pour l’apprentissage robotique. De nombreuses équipes explorent l’utilisation de vidéos YouTube comme méthode pour entraîner des robots à grande échelle, mais RT-Trajectory ajoute une couche intéressante, superposant un croquis en deux dimensions du bras en action sur la vidéo.

L’équipe note que « ces trajectoires, sous forme d’images RVB, fournissent des indications visuelles pratiques de bas niveau au modèle à mesure qu’il apprend ses politiques de contrôle du robot ».

DeepMind affirme que la formation a eu un taux de réussite deux fois supérieur à celui de sa formation RT-2, à 63 % contre 29 %, tout en testant 41 tâches.

« RT-Trajectory utilise les riches informations sur les mouvements robotiques présentes dans tous les ensembles de données de robots, mais actuellement sous-utilisées », note l’équipe. « RT-Trajectory représente non seulement une nouvelle étape sur la voie de la construction de robots capables de se déplacer avec une précision efficace dans des situations nouvelles, mais également de libérer les connaissances des ensembles de données existants. »

Source-146