La semaine dernière, les chercheurs de Microsoft ont annoncé un cadre expérimental pour contrôler les robots et les drones en utilisant les capacités linguistiques de ChatGPT, un modèle de langage AI populaire créé par OpenAI. À l’aide de commandes en langage naturel, ChatGPT peut écrire un code spécial qui contrôle les mouvements du robot. Un humain visualise ensuite les résultats et ajuste si nécessaire jusqu’à ce que la tâche soit terminée avec succès.
La recherche est arrivée dans un article intitulé « ChatGPT pour la robotique : Principes de conception et capacités de modèle », rédigé par Sai Vemprala, Rogerio Bonatti, Arthur Bucker et Ashish Kapoor du groupe Microsoft Autonomous Systems and Robotics.
Dans une vidéo de démonstration, Microsoft montre des robots – apparemment contrôlés par un code écrit par ChatGPT tout en suivant des instructions humaines – utilisant un bras de robot pour organiser des blocs dans un logo Microsoft, pilotant un drone pour inspecter le contenu d’une étagère ou trouvant des objets à l’aide d’un robot avec des capacités de vision.
Pour que ChatGPT s’interface avec la robotique, les chercheurs ont enseigné à ChatGPT une API de robotique personnalisée. Lorsqu’on lui donne des instructions telles que « ramasser la balle », ChatGPT peut générer un code de contrôle robotique comme s’il écrivait un poème ou terminait un essai. Après qu’un humain a inspecté et modifié le code pour en vérifier la précision et la sécurité, l’opérateur humain peut exécuter la tâche et évaluer ses performances.
De cette façon, ChatGPT accélère la programmation des commandes robotiques, mais ce n’est pas un système autonome. « Nous soulignons que l’utilisation de ChatGPT pour la robotique n’est pas un processus entièrement automatisé », lit-on dans l’article, « mais agit plutôt comme un outil pour augmenter les capacités humaines ».
Bien qu’il semble que la plupart des commentaires sur ChatGPT (en termes de succès ou d’échec de ses actions) proviennent d’humains sous forme de texte, les chercheurs affirment également avoir eu un certain succès en introduisant des données visuelles dans ChatGPT lui-même. Dans un exemple, les chercheurs ont chargé ChatGPT de commander à un robot d’attraper un ballon de basket avec le retour d’une caméra : « ChatGPT peut estimer l’apparence de la balle et du ciel dans l’image de la caméra à l’aide du code SVG. Ce comportement suggère la possibilité que le LLM garde la trace d’un modèle de monde implicite allant au-delà des probabilités textuelles. »
Bien que les résultats semblent rudimentaires pour l’instant, ils représentent les premières tentatives d’application de la technologie la plus en vogue du moment – les grands modèles de langage – au contrôle robotique. Selon Microsoft, une interface ChatGPT pourrait ouvrir la robotique à un public beaucoup plus large à l’avenir.
« Notre objectif avec cette recherche est de voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde physique pour aider aux tâches robotiques », lit-on dans un article de blog de Microsoft Research. « Nous voulons aider les gens à interagir plus facilement avec les robots, sans avoir besoin d’apprendre des langages de programmation complexes ou des détails sur les systèmes robotiques. »