Science approfondie : la combinaison de la vision et du langage pourrait être la clé d’une IA plus performante

Selon la théorie de l’intelligence à laquelle vous souscrivez, la réalisation d’une IA « au niveau humain » nécessitera un système capable de tirer parti de plusieurs modalités – par exemple, le son, la vision et le texte – pour raisonner sur le monde. Par exemple, lorsqu’on lui montre l’image d’un camion renversé et d’une voiture de police sur une autoroute enneigée, une IA au niveau humain pourrait en déduire que des conditions routières dangereuses ont causé un accident. Ou, en courant sur un robot, lorsqu’on leur demandait de saisir une canette de soda dans le réfrigérateur, ils naviguaient parmi les personnes, les meubles et les animaux domestiques pour récupérer la canette et la placer à portée du demandeur.

L’IA d’aujourd’hui est insuffisante. Mais de nouvelles recherches montrent des signes de progrès encourageants, des robots qui peuvent comprendre les étapes pour satisfaire les commandes de base (par exemple, « prenez une bouteille d’eau ») aux systèmes de production de texte qui apprennent des explications. Dans cette édition relancée de Deep Science, notre série hebdomadaire sur les derniers développements de l’IA et du domaine scientifique au sens large, nous couvrons les travaux de DeepMind, Google et OpenAI qui font des progrès vers des systèmes qui peuvent – sinon parfaitement comprendre le monde – résoudre des tâches étroites telles que la génération d’images avec une robustesse impressionnante.

Laboratoire de recherche sur l’IA Le DALL-E amélioré d’OpenAI, DALL-E 2, est de loin le projet le plus impressionnant à émerger des profondeurs d’un laboratoire de recherche sur l’IA. Comme l’écrit mon collègue Devin Coldewey, alors que le DALL-E original a démontré une prouesse remarquable pour créer des images correspondant à pratiquement n’importe quelle invite (par exemple, « un chien portant un béret »), DALL-E 2 va plus loin. Les images qu’il produit sont beaucoup plus détaillées et DALL-E 2 peut remplacer intelligemment une zone donnée dans une image, par exemple en insérant un tableau dans une photo d’un sol en marbre rempli des réflexions appropriées.

Un exemple des types d’images que DALL-E 2 peut générer.

DALL-E 2 a reçu l’essentiel de l’attention cette semaine. Mais jeudi, des chercheurs de Google ont détaillé un système de compréhension visuelle tout aussi impressionnant appelé Visually-Driven Prosody for Text-to-Speech – VDTTS – dans un article publié sur le blog AI de Google. Le VDTTS peut générer un discours réaliste et synchronisé sur les lèvres, rien de plus que des images textuelles et vidéo de la personne qui parle.

Le discours généré par VDTTS, bien qu’il ne soit pas un substitut parfait pour un dialogue enregistré, est toujours assez bon, avec une expressivité et un timing convaincants et humains. Google le voit un jour être utilisé dans un studio pour remplacer l’audio original qui aurait pu être enregistré dans des conditions bruyantes.

Bien sûr, la compréhension visuelle n’est qu’une étape sur la voie d’une IA plus performante. Un autre élément est la compréhension du langage, qui est à la traîne à bien des égards, même en mettant de côté les problèmes de toxicité et de biais bien documentés de l’IA. Dans un exemple frappant, un système de pointe de Google, Pathways Language Model (PaLM), a mémorisé 40% des données qui ont été utilisées pour le «former», selon un article, ce qui a conduit PaLM à plagier le texte jusqu’aux avis de droit d’auteur dans extraits de code.

Heureusement, DeepMind, le laboratoire d’IA soutenu par Alphabet, fait partie de ceux qui explorent des techniques pour résoudre ce problème. Dans une nouvelle étude, les chercheurs de DeepMind étudient si les systèmes de langage d’IA – qui apprennent à générer du texte à partir de nombreux exemples de texte existant (livres de réflexion et médias sociaux) – pourraient bénéficier d’être donnés explications de ces textes. Après avoir annoté des dizaines de tâches linguistiques (par exemple, « Répondez à ces questions en identifiant si la deuxième phrase est une paraphrase appropriée de la première phrase métaphorique ») avec des explications (par exemple, « Les yeux de David n’étaient pas littéralement des poignards, c’est une métaphore utilisée pour impliquent que David regardait Paul avec férocité. ») et en évaluant les performances de différents systèmes sur ceux-ci, l’équipe DeepMind a découvert que les exemples amélioraient effectivement les performances des systèmes.

L’approche de DeepMind, si elle réussit au sein de la communauté universitaire, pourrait un jour être appliquée à la robotique, formant les éléments de base d’un robot capable de comprendre des demandes vagues (par exemple, « jeter les ordures ») sans instructions étape par étape. Le nouveau projet « Faites ce que je peux, pas ce que je dis » de Google donne un aperçu de cet avenir, mais avec des limites importantes.

Une collaboration entre Robotics chez Google et l’équipe Everyday Robotics du laboratoire X d’Alphabet, Do As I Can, Not As I Say cherche à conditionner un système de langage d’IA pour proposer des actions « réalisables » et « contextuellement appropriées » pour un robot, étant donné un arbitraire tâche. Le robot agit comme les «mains et les yeux» du système linguistique tandis que le système fournit des connaissances sémantiques de haut niveau sur la tâche – la théorie étant que le système linguistique encode une richesse de connaissances utiles au robot.

Robotique Google

Crédits image : La robotique chez Google

Un système appelé SayCan sélectionne la compétence que le robot doit exécuter en réponse à une commande, en tenant compte (1) de la probabilité qu’une compétence donnée soit utile et (2) de la possibilité d’exécuter avec succès ladite compétence. Par exemple, en réponse à quelqu’un disant « J’ai renversé mon coca, pouvez-vous m’apporter quelque chose pour le nettoyer ? », SayCan peut demander au robot de trouver une éponge, de ramasser l’éponge et de l’apporter à la personne qui a demandé ce.

SayCan est limité par le matériel robotique – à plus d’une occasion, l’équipe de recherche a observé le robot qu’elle avait choisi pour mener des expériences laissant tomber accidentellement des objets. Pourtant, cela, avec DALL-E 2 et le travail de DeepMind dans la compréhension contextuelle, est une illustration de la façon dont les systèmes d’IA lorsqu’ils sont combinés peuvent nous rapprocher encore plus d’un Type Jetsons futur.

Source-146