Covariant construit ChatGPT pour les robots

Covariant cette semaine a annoncé le lancement de RFM-1 (Robotics Foundation Model 1). Peter Chen, cofondateur et PDG de la spin-out d’intelligence artificielle de l’UC Berkeley, a déclaré à TechCrunch que la plate-forme « est essentiellement un grand modèle de langage (LLM), mais pour le langage robotique ».

RFM-1 est le résultat, entre autres, d’une mine massive de données collectées lors du déploiement de la plateforme Brain AI de Covariant. Avec le consentement du client, la startup a construit l’équivalent robot d’une base de données LLM.

« La vision de RFM-1 est d’alimenter les milliards de robots à venir », explique Chen. « Chez Covariant, nous avons déjà déployé avec succès de nombreux robots dans des entrepôts. Mais ce n’est pas la limite à laquelle nous voulons arriver. Nous voulons vraiment équiper les robots des secteurs de l’industrie manufacturière, de la transformation alimentaire, du recyclage, de l’agriculture, du secteur des services et même des foyers.

La plateforme est lancée alors que de plus en plus d’entreprises de robotique discutent de l’avenir des systèmes « à usage général ». L’assaut soudain d’entreprises de robotique humanoïde comme Agility, Figure, 1X et Apptronik a joué un rôle central dans cette conversation. Le facteur de forme est particulièrement adapté à l’adaptabilité (un peu comme les humains sur lesquels il est modelé), bien que la robustesse des systèmes IA/logiciels embarqués soit une toute autre question.

Pour l’instant, le logiciel de Covariant est largement déployé sur des bras robotiques industriels effectuant diverses tâches familières en entrepôt, notamment des tâches telles que le prélèvement des bacs. Il n’est actuellement pas déployé sur les humanoïdes, bien que la société promette un certain niveau d’agnosticisme matériel.

«Nous apprécions une grande partie du travail effectué dans le domaine du matériel robotique à usage plus général», déclare Chen. « C’est en couplant le point d’inflexion de l’intelligence avec le point d’inflexion du matériel que nous verrons encore plus d’explosions d’applications robotiques. Mais beaucoup d’entre eux ne sont pas encore totalement au point, notamment du côté matériel. C’est très difficile d’aller au-delà de la vidéo scénique. Combien de personnes ont interagi avec un humanoïde en personne ? Cela vous indique le degré de maturité.

Crédits images : Covariante

Covariant n’hésite cependant pas à faire des comparaisons humaines en ce qui concerne le rôle que joue RFM-1 dans les processus de prise de décision des robots. Selon son matériel de presse, la plate-forme « offre aux robots la capacité de raisonner semblable à celle d’un humain, ce qui représente la première fois que l’IA générative réussit à donner aux robots commerciaux une compréhension plus profonde du langage et du monde physique ».

C’est l’un de ces domaines où nous devons être prudents avec les affirmations, à la fois en termes de comparaisons avec des concepts abstraits – ou même philosophiques – et de leur efficacité réelle dans le monde réel au fil du temps. La « capacité humaine à raisonner » est un concept très vaste qui signifie beaucoup de choses différentes pour beaucoup de personnes différentes. Ici, la notion s’applique à la capacité du système à traiter des données du monde réel et à déterminer le meilleur plan d’action pour exécuter la tâche à accomplir.

Il s’agit d’une différence par rapport aux systèmes robotiques traditionnels qui sont programmés pour effectuer une tâche de manière répétée, à l’infini. Ces robots à usage unique ont prospéré dans des environnements hautement structurés, à commencer par les chaînes d’assemblage automobile. Tant qu’il y a des changements minimes dans la tâche à accomplir, un bras robot peut faire son travail encore et encore, sans entrave, jusqu’à ce qu’il soit temps de mettre un terme à sa journée et de récupérer la montre de poche en or pour ses années de loyaux services.

Cependant, même avec les plus petits écarts, tout peut s’effondrer rapidement. Supposons que l’objet ne soit pas placé exactement sur le tapis roulant, ou qu’il y ait eu un ajustement de l’éclairage qui a un impact sur les caméras embarquées. Ce genre de différences peut avoir un impact énorme sur la capacité d’exécution du robot. Imaginez maintenant essayer de faire fonctionner ce robot avec une nouvelle pièce, un nouveau matériau ou même d’effectuer une tâche complètement différente. C’est encore plus difficile.

C’est là qu’interviennent traditionnellement les programmeurs. Le robot doit être reprogrammé. Le plus souvent, une personne extérieure à l’usine entre en scène. Cela représente une perte importante de ressources et de temps. Si vous voulez éviter cela, deux choses doivent se produire. 1. Les personnes travaillant sur le terrain doivent apprendre le code ou 2. Vous avez besoin d’une nouvelle méthode plus naturelle pour interagir avec le robot.

Même si ce serait formidable de procéder dans le premier cas, il semble peu probable que les entreprises soient disposées à investir de l’argent et à attendre le temps nécessaire. C’est précisément ce que Covariant tente de faire avec RFM-1. « ChatGPT pour les robots » n’est pas une analogie parfaite, mais c’est un raccourci raisonnable (surtout à la lumière de la connexion des fondateurs à OpenAI).

Du point de vue du client, la plateforme se présente comme un champ de texte, un peu comme l’itération actuelle de l’IA générative destinée au consommateur. Saisissez une commande textuelle telle que « ramasser la pomme » en tapant ou en appelant, et le système utilise ses données d’entraînement (forme, couleur, taille, etc.) pour identifier l’objet devant lui qui correspond le plus à cette description.

RFM-1 génère ensuite des résultats vidéo – essentiellement des simulations – pour déterminer le meilleur plan d’action en utilisant la formation antérieure. Ce dernier élément est similaire à la façon dont notre cerveau calcule les résultats potentiels d’une action avant de l’exécuter.

Lors d’une démonstration en direct, le système réagit à des entrées telles que « ramassez l’objet rouge » et même à la plus complexe sémantiquement, « ramasse ce que vous mettez sur vos pieds avant de mettre vos chaussures », ce qui a amené le robot à saisir correctement l’objet rouge. une pomme et une paire de chaussettes, respectivement.

De nombreuses grandes idées sont évoquées lors des discussions sur les promesses du système. À tout le moins, Covariant a un pedigree impressionnant parmi ses fondateurs. Chen a étudié l’IA à Berkeley sous la direction de Pieter Abbeel, son cofondateur de Covariant et scientifique en chef. Abbeel est également devenu l’un des premiers employés d’OpenAI en 2016, un mois après que Chen a rejoint la société ChatGPT. Covariant a été fondée l’année suivante.

Chen affirme que la société s’attend à ce que la nouvelle plate-forme RFM-1 fonctionne avec la « majorité » du matériel sur lequel le logiciel Covariant est déjà déployé.

Source-146