Lundi, un groupe de chercheurs en IA de Google et de l’Université technique de Berlin a dévoilé PaLM-E, un modèle de langage visuel incarné multimodal (VLM) avec 562 milliards de paramètres qui intègre la vision et le langage pour le contrôle robotique. Ils affirment qu’il s’agit du plus grand VLM jamais développé et qu’il peut effectuer une variété de tâches sans avoir besoin de se recycler.
Selon Google, lorsqu’on lui donne une commande de haut niveau, telle que « apportez-moi les chips de riz du tiroir », PaLM-E peut générer un plan d’action pour une plate-forme de robot mobile avec un bras (développé par Google Robotics) et exécuter les actions en elles-mêmes.
PaLM-E le fait en analysant les données de la caméra du robot sans avoir besoin d’une représentation de scène prétraitée. Cela élimine le besoin d’un humain pour pré-traiter ou annoter les données et permet un contrôle robotique plus autonome.
Il est également résistant et peut réagir à son environnement. Par exemple, le modèle PaLM-E peut guider un robot pour récupérer un sac de frites dans une cuisine et avec PaLM-E intégré dans la boucle de contrôle, il devient résistant aux interruptions qui pourraient survenir pendant la tâche. Dans un exemple vidéo, un chercheur saisit les puces du robot et les déplace, mais le robot localise les puces et les récupère.
Dans un autre exemple, le même modèle PaLM-E contrôle de manière autonome un robot à travers des tâches aux séquences complexes qui nécessitaient auparavant un guidage humain. Le document de recherche de Google explique comment PaLM-E transforme les instructions en actions :
Nous démontrons les performances de PaLM-E sur des tâches de manipulation mobiles difficiles et diverses. Nous suivons en grande partie la configuration d’Ahn et al. (2022), où le robot doit planifier une séquence d’actions de navigation et de manipulation basée sur une instruction par un humain. Par exemple, étant donné la consigne « J’ai renversé mon verre, pouvez-vous m’apporter quelque chose pour le nettoyer ? », le robot doit planifier une séquence contenant « 1. Trouver une éponge, 2. Ramasser l’éponge, 3. Apporter à l’utilisateur, 4. Déposez l’éponge. » Inspirés par ces tâches, nous développons 3 cas d’utilisation pour tester les capacités de raisonnement incarnées de PaLM-E : prédiction d’affordance, détection de défaillance et planification à long horizon. Les politiques de bas niveau proviennent de RT-1 (Brohan et al., 2022), un modèle de transformateur qui prend des images RVB et des instructions en langage naturel, et produit des commandes de contrôle de l’effecteur final.
PaLM-E est un prédicteur de jeton suivant, et il s’appelle « PaLM-E » car il est basé sur le grand modèle de langage (LLM) existant de Google appelé « PaLM » (qui est similaire à la technologie derrière ChatGPT). Google a rendu PaLM « incarné » en ajoutant des informations sensorielles et un contrôle robotique.
Puisqu’il est basé sur un modèle de langage, PaLM-E prend des observations continues, comme des images ou des données de capteur, et les encode dans une séquence de vecteurs qui ont la même taille que les jetons de langage. Cela permet au modèle de « comprendre » les informations sensorielles de la même manière qu’il traite le langage.
En plus du transformateur robotique RT-1, PaLM-E s’inspire des travaux antérieurs de Google sur ViT-22B, un modèle de transformateur de vision révélé en février. ViT-22B a été formé à diverses tâches visuelles, telles que la classification d’images, la détection d’objets, la segmentation sémantique et le sous-titrage d’images.
Google Robotics n’est pas le seul groupe de recherche travaillant sur le contrôle robotique avec des réseaux de neurones. Ce travail particulier ressemble au récent article « ChatGPT for Robotics » de Microsoft, qui a expérimenté la combinaison de données visuelles et de grands modèles de langage pour le contrôle robotique de la même manière.
La robotique mise à part, les chercheurs de Google ont observé plusieurs effets intéressants qui proviennent apparemment de l’utilisation d’un grand modèle de langage comme noyau de PaLM-E. D’une part, il présente un « transfert positif », ce qui signifie qu’il peut transférer les connaissances et les compétences qu’il a acquises d’une tâche à une autre, ce qui se traduit par des « performances nettement supérieures » par rapport aux modèles de robots à tâche unique.
Aussi, ils observé une tendance à l’échelle du modèle : « Plus le modèle de langage est grand, plus il conserve ses capacités linguistiques lors de l’entraînement sur des tâches de langage visuel et de robotique – quantitativement, le modèle 562B PaLM-E conserve presque toutes ses capacités linguistiques. »
PaLM-E est le plus grand VLM signalé à ce jour. Nous observons des capacités émergentes telles que le raisonnement en chaîne multimodale de la pensée et l’inférence multi-images, même si nous n’avons été formés qu’à des invites à une seule image. Bien que n’étant pas au centre de notre travail, PaLM-E établit un nouveau SOTA sur la référence OK-VQA. pic.twitter.com/9FHug25tOF
– Danny Driess (@DannyDriess) 7 mars 2023
Et les chercheurs réclamation que PaLM-E présente des capacités émergentes comme le raisonnement multimodal de la chaîne de pensée (permettant au modèle d’analyser une séquence d’entrées qui incluent à la fois des informations linguistiques et visuelles) et l’inférence multi-images (utilisant plusieurs images comme entrée pour faire une inférence ou une prédiction ) bien qu’il ait été formé uniquement sur des invites d’image unique. En ce sens, PaLM-E semble poursuivre la tendance des surprises à mesure que les modèles d’apprentissage en profondeur deviennent plus complexes au fil du temps.
Les chercheurs de Google prévoient d’explorer davantage d’applications de PaLM-E pour des scénarios réels tels que la domotique ou la robotique industrielle. Et ils espèrent que PaLM-E inspirera davantage de recherches sur le raisonnement multimodal et l’IA incarnée.
« Multimodal » est un mot à la mode que nous entendrons de plus en plus à mesure que les entreprises recherchent une intelligence artificielle générale qui sera apparemment capable d’effectuer des tâches générales comme un humain.