Si vous avez utilisé un assistant vocal intelligent comme Alexa, Siri et quel que soit le nom de l’assistant intelligent de Google, vous aurez probablement remarqué que la technologie devient de plus en plus intelligente chaque jour. Google peut vous attendre, Siri peut parler d’une voix non sexiste et Alexa peut vous lire des histoires au coucher avec la voix de votre grand-mère décédée. La robotique évolue également à pas de géant, comme nous l’avons exploré lors de notre événement Robotique le mois dernier. L’écart entre les deux – les commandes vocales et la robotique autonome – est énorme, pour un certain nombre de raisons. La semaine dernière, nous sommes allés dans les laboratoires de robotique de Google à Mountain View pour voir comment cela allait changer dans un avenir proche.
Apprendre aux robots quoi faire pour des tâches répétitives dans des espaces contrôlés où les humains ne sont pas autorisés n’est pas facile, mais c’est plus ou moins un problème résolu. La récente visite d’usine de Rivian en est un excellent rappel, mais l’utilisation de la robotique industrielle est omniprésente dans la fabrication.
Les robots à usage général capables de résoudre de nombreuses tâches différentes basées sur des commandes vocales dans des espaces où les humains existent également, sont beaucoup plus difficiles. Vous pourriez dire « Mais qu’en est-il de Roomba », mais le robot-aspirateur préféré de tout le monde est généralement programmé pour éviter de toucher des choses autres que le sol et tout ce qui se trouve sur le sol, au grand dam de certains propriétaires.
« Vous vous demandez peut-être pourquoi le ping-pong. L’un des grands défis de la robotique aujourd’hui est cette intersection d’être rapide, précis et adaptatif. Vous pouvez être rapide et ne pas s’adapter du tout ; ce n’est pas un problème. C’est bien dans un environnement industriel. Mais être rapide, adaptatif et précis est un très gros défi. Le ping-pong est un très beau microcosme du problème. Cela demande précision et rapidité. Vous pouvez apprendre des gens qui jouent : c’est une compétence que les gens développent en pratiquant », m’a dit Vincent Vanhoucke, scientifique émérite et responsable de la robotique chez Google Research. «Ce n’est pas une compétence où vous pouvez lire les règles et devenir un champion du jour au lendemain. Il faut vraiment s’entraîner. »
La vitesse et la précision sont une chose, mais l’écrou que Google essaie vraiment de casser dans ses laboratoires robotiques, c’est l’intersection entre le langage humain et la robotique. Il fait des progrès impressionnants dans le niveau de compréhension robotique du langage naturel qu’un humain pourrait utiliser. « Quand vous aurez une minute, pourriez-vous me prendre un verre au comptoir ? » est une requête assez simple que vous pourriez demander à un humain. Pour une machine, cependant, cette déclaration englobe beaucoup de connaissances et de compréhension dans une question apparemment unique. Décomposons-le : « Quand vous avez une minute » peut ne rien signifier du tout, simplement comme une figure de style, ou cela peut être une demande réelle de terminer ce que le robot est en train de faire. Si un robot est trop littéral, la réponse « correcte » à « pourriez-vous me prendre un verre » pourrait simplement être le robot disant « oui ». Il le peut, et il confirme qu’il est capable de prendre un verre. Mais, en tant qu’utilisateur, vous n’avez pas explicitement demandé au robot de le faire. Et, si nous sommes très pédants, vous n’avez pas explicitement dit au robot de vous apporter la boisson.
Ce sont quelques-uns des problèmes auxquels Google s’attaque avec son système de traitement du langage naturel. le modèle de langage Pathways – ou PaLM entre amis : traiter et absorber avec précision ce qu’un humain veut réellement, plutôt que de faire littéralement ce qu’il dit.
Le prochain défi consiste à reconnaître ce qu’un robot est réellement capable de faire. Un robot peut parfaitement comprendre lorsque vous lui demandez de saisir une bouteille de nettoyant sur le dessus du réfrigérateur, où elle est rangée en toute sécurité hors de la portée des enfants. Le problème est que le robot ne peut pas atteindre cette hauteur. La grande percée est ce que Google appelle les « affordances » – ce que le robot peut réellement faire avec un degré raisonnable de succès. Cela peut inclure des tâches faciles (« avancer d’un mètre »), des tâches légèrement plus avancées (« Aller chercher une canette de Coca dans la cuisine »), des actions complexes en plusieurs étapes qui nécessitent que le robot fasse preuve d’un peu de compréhension. de ses propres capacités et du monde qui l’entoure. (« Ugh, j’ai renversé ma canette de Coca sur le sol. Pourriez-vous l’essuyer et m’apporter une boisson saine? »).
L’approche de Google utilise les connaissances contenues dans les modèles de langage (« Say ») pour déterminer et noter les actions utiles pour les instructions de haut niveau. Il utilise également une fonction d’affordance (« Can ») qui permet de s’ancrer dans le monde réel et détermine les actions qu’il est possible d’exécuter dans un environnement donné. En utilisant le modèle de langage PaLM, Google appelle cela PaLM-SayCan.
Pour résoudre la commande plus avancée ci-dessus, le robot doit la décomposer en un certain nombre d’étapes individuelles. Un exemple de cela pourrait être:
- Venez à l’orateur.
- Regardez le sol, trouvez le déversement, rappelez-vous où il se trouve.
- Parcourez les tiroirs, les armoires et les comptoirs de cuisine à la recherche d’une vadrouille, d’une éponge ou d’un essuie-tout.
- Une fois qu’un outil de nettoyage (il y a une éponge dans le tiroir) est trouvé, ramassez-le.
- Fermez le tiroir.
- Déplacez-vous vers le déversement.
- Nettoyez le déversement en vérifiant si l’éponge peut absorber tout le liquide. Sinon, va l’essorer dans l’évier et reviens.
- Une fois le déversement nettoyé, essorez l’éponge une fois de plus.
- Ouvrez le robinet, rincez l’éponge, fermez le robinet, essorez l’éponge une dernière fois.
- Ouvrez le tiroir, rangez l’éponge, fermez le tiroir.
- Identifiez les boissons qui se trouvent dans la cuisine et déterminez d’une manière ou d’une autre quelles boissons sont «plus saines» qu’un coca.
- Trouvez une bouteille d’eau dans le réfrigérateur, prenez-la, apportez-la à la personne qui l’a demandée – qui a peut-être bougé depuis qu’elle a posé la question, car vous êtes un petit robot lent qui a dû rouler d’avant en arrière à l’évier 14 fois, car au lieu d’utiliser des serviettes en papier, vous avez pensé que ce serait une idée géniale d’utiliser une petite éponge de cuisine pour éponger 11 onces de liquide.
Quoi qu’il en soit – je me moque ici, mais vous comprenez l’essentiel; même des instructions relativement simples peuvent, en fait, inclure un grand nombre d’étapes, de logique et de décisions en cours de route. Trouvez-vous la boisson la plus saine qui soit, ou l’objectif est-il d’obtenir quelque chose de plus sain que le Coca-Cola ? Serait-il judicieux de prendre la boisson en premier, puis d’éponger le désordre, afin que l’humain puisse se désaltérer pendant que vous vous occupez du reste de la tâche ?
L’essentiel ici est d’enseigner aux robots ce qu’ils peuvent et ne peuvent pas faire, et ce qui a du sens dans diverses situations. En visitant le laboratoire de robotique de Google, j’ai vu une trentaine de robots, à la fois de Everyday Robots et d’autres machines spécialement conçues, jouant au tennis de table, attrapant des balles de crosse et apprenant à empiler des blocs, à ouvrir les portes du réfrigérateur et à « être poli » tout en fonctionnant dans le même l’espace en tant qu’êtres humains.
Le défi intéressant auquel la robotique est confrontée est que les modèles de langage ne sont pas intrinsèquement ancrés dans le monde physique. Ils sont formés sur d’énormes bibliothèques de texte, mais les bibliothèques de texte n’interagissent pas avec leurs environnements et ils n’ont pas non plus à se soucier trop des problèmes. C’est un peu drôle quand vous demandez à Google de vous diriger vers le café le plus proche et que Maps trace accidentellement une randonnée de 45 jours et une baignade de trois jours à travers un lac. Dans le monde réel, les erreurs stupides ont des conséquences réelles.
Par exemple, lorsque vous êtes invité à dire « J’ai renversé mon verre, pouvez-vous m’aider ? » le modèle de langage GPT-3 répond par « Vous pouvez essayer d’utiliser un aspirateur ». C’est logique : pour certains désordres, un aspirateur est un bon choix, et il va de soi qu’un modèle de langage associe un aspirateur à, eh bien, le nettoyage. Si le robot faisait réellement cela, il échouerait probablement : les aspirateurs ne sont pas bons pour les boissons renversées, et l’eau et l’électronique ne se mélangent pas, vous pourriez donc vous retrouver avec un aspirateur cassé au mieux, ou un incendie d’appareil au pire.
Les robots compatibles PaLM-SayCan de Google sont placés dans une cuisine et sont formés pour s’améliorer dans divers aspects de l’aide dans une cuisine. Les robots, lorsqu’ils reçoivent une instruction, essaient de prendre une décision. « Quelle est la probabilité que je réussisse dans ce que je suis sur le point d’essayer » et « dans quelle mesure cette chose est-elle susceptible d’être utile ». Quelque part dans l’espace entre ces deux considérations, les robots deviennent de plus en plus intelligents de jour en jour.
Les affordances – ou la capacité de faire quelque chose – ne sont pas binaires. Équilibrer trois balles de golf les unes sur les autres est très difficile, mais pas impossible. Ouvrir un tiroir est presque impossible pour un robot à qui on n’a pas montré comment fonctionnent les tiroirs – mais une fois qu’ils sont formés et qu’ils sont capables d’expérimenter la meilleure façon d’ouvrir un tiroir, ils peuvent obtenir un degré de confiance de plus en plus élevé dans un tâche. Un robot non formé, suggère Google, pourrait ne pas être en mesure de saisir un sac de croustilles dans un tiroir. Mais donnez-lui quelques instructions et quelques jours pour s’entraîner, et les chances de succès augmentent considérablement.
Bien sûr, toutes ces données d’entraînement sont notées au fur et à mesure que le robot essaie des choses. De temps en temps, un robot peut « résoudre » une tâche de manière surprenante, mais il peut en fait être « plus facile » de le faire de cette façon pour un robot.
En dissociant les modèles de langage des affordances, cela signifie que le robot peut « comprendre » les commandes dans un certain nombre de langues différentes. L’équipe l’a démontré dans la cuisine également, lorsque le chef de la robotique Vincent Vanhoucke a demandé au robot une canette de coca en français ; « Nous avons obtenu les compétences linguistiques gratuitement », a déclaré l’équipe, soulignant à quel point les réseaux de neurones utilisés pour former les robots sont suffisamment flexibles pour ouvrir de nouvelles portes (au propre et au figuré) pour l’accessibilité et l’accès universel.
Aucun des robots ou des technologies n’est actuellement disponible, ni nécessairement même destiné à des produits commerciaux.
“RPour l’instant, c’est entièrement de la recherche. Comme vous pouvez le voir d’après le niveau de compétence que nous avons aujourd’hui, ce n’est pas vraiment prêt à être déployé dans un environnement commercial. Nous sommes des équipes de recherche et nous aimons travailler sur des choses qui ne fonctionnent pas », ironise Vanhoucke. « C’est la définition de la recherche à certains égards, et nous allons continuer à pousser. Nous aimons travailler sur des choses qui n’ont pas besoin d’être mises à l’échelle, car c’est un moyen d’informer sur la façon dont les choses évoluent avec plus de données et plus de capacités informatiques. Vous pouvez voir une tendance de la direction que prendront les choses à l’avenir.
Il faudra un certain temps au laboratoire de robotique de Google pour déterminer quels seront, le cas échéant, les impacts commerciaux de ses expériences à long terme, mais même dans les démos relativement simples présentées à Mountain View la semaine dernière, il est évident que le traitement du langage naturel et la robotique est gagnante car les équipes de Google acquièrent des compétences, des connaissances et de vastes ensembles de données plus approfondis sur la façon de former des robots.