Qu’on le veuille ou non, nous sommes désormais dans le monde de l’IA générative. Des réseaux neuronaux extrêmement complexes formés sur de grandes quantités de données, tout cela pour que nous puissions les utiliser pour prendre des photos d’ânes chevauchant des fusées spatiales ou nous dire quel revêtement de churro est le meilleur. Je plaisante, bien sûr, parce que les grands modèles de langage (LLM) peuvent être très utiles, mais il y a un domaine dans lequel ils n’ont pas encore été utilisés : c’est la robotique. Plus maintenant, puisque Google, l’Université de Californie et de nombreux autres laboratoires à travers le monde ont lancé le projet RT-X, dans le but d’utiliser l’IA pour créer un « cerveau » polyvalent pour les robots.
Jusqu’à présent, personne ne semble avoir vraiment tenté cela, mais c’est uniquement parce que les données utilisées pour entraîner les réseaux neuronaux reposent presque entièrement sur des efforts humains, tels que l’art, la musique, l’écriture, etc. Aussi choquant que cela puisse paraître, Internet ne regorge pas de données sur les robots et sur la manière dont ils accomplissent des tâches spécifiques.
C’est pourquoi Google et l’Université de Californie ont décidé de mettre en place le projet RT-X (via Fudzilla), en collaboration avec 32 autres laboratoires de robotique du monde entier, pour les aider à générer le type de données nécessaires à l’entraînement d’un réseau neuronal. Cela signifie rassembler des données provenant de millions et de millions d’interactions avec des robots, effectuer des tâches telles que le prélèvement et le placement ou le soudage sur les lignes de fabrication.
L’objectif est de disposer d’un ensemble de données suffisamment volumineux pour créer un LLM pouvant être utilisé pour produire le code requis pour programmer un robot pour effectuer n’importe quelle tâche. Il s’agit essentiellement d’un cerveau robotique à usage général.
Mes propres expériences de programmation de bras de robot, depuis l’époque où j’enseignais l’ingénierie, étaient des affaires primitives, mais je peux facilement voir l’attrait et le potentiel de ce travail. Plutôt que de tout coder manuellement vous-même, l’idée est de taper dans l’interface quelque chose du genre « Mettez les oranges dans la boîte grise et laissez les pommes tranquilles ». Le LLM se chargerait alors de la production du code nécessaire pour ce faire.
En utilisant des entrées spécifiques, telles qu’un flux vidéo provenant de la caméra du robot, le code serait automatiquement ajusté pour tenir compte non seulement de l’environnement dans lequel se trouve le robot, mais également de la marque et du modèle du robot réellement utilisé. Les premiers tests du modèle RT-X, tels que rapportés dans IEEE Spectrum, ont été plus réussis que les meilleurs efforts de codage du laboratoire.
Les étapes suivantes furent encore plus impressionnantes. Le cerveau humain est exceptionnellement doué pour raisonner : dites à quelqu’un de ramasser une pomme et de la placer entre une canette de soda et une orange sur la table, et vous vous attendez à ce qu’il le fasse sans problème. Ce n’est pas le cas avec les robots et, généralement, tout cela devrait y être directement codé.
Cependant, Google a découvert que le LLM pouvait « le comprendre », même si cette tâche spécifique n’a jamais fait partie de l’ensemble de données de formation du réseau neuronal.
Bien que le projet RT-X n’en soit qu’à ses débuts, les avantages de l’IA générative sont évidents et le plan est désormais d’augmenter le nombre de formations, à partir du plus grand nombre d’installations robotiques possible, pour produire un LLM entièrement inter-incarnations.
Nous sommes naturellement inter-incarnations (c’est-à-dire que notre cerveau peut apprendre à effectuer de nombreuses tâches complexes, comme pratiquer un sport, faire du vélo ou conduire une voiture), mais pour le moment, les robots ne le sont pas du tout.
Un jour, cependant, nous pourrons nous rendre dans un service au volant, commander notre nourriture et obtenir exactement ce que nous avons commandé et placé correctement entre nos mains ! Maintenant, si ce n’est pas un progrès, je ne sais pas ce que c’est. J’ai hâte de saluer nos suzerains méga-cerveaux de l’IA… euh… des robots utiles.