Sur scène à re:Mars cette semaine, Amazon a présenté une fonctionnalité Alexa en développement destinée à imiter le flux du langage naturel. La conversation entre deux humains suit rarement une structure prédéfinie. Il va dans des endroits étranges et inattendus. Un sujet enchaîne sur un autre, au fur et à mesure que les participants injectent leur expérience vécue.
Dans une démo, une conversation sur les arbres se transforme en une conversation sur la randonnée et les parcs. Dans le contexte de l’IA de l’entreprise, le vice-président senior et directeur scientifique d’Alexa, Rohit Prasad, qualifie le phénomène d' »exploration de conversation ». Ce n’est pas un nom propre pour une fonctionnalité appropriée, exactement. Il n’y a pas d’interrupteur qui se retourne pour activer soudainement les conversations du jour au lendemain. Au contraire, cela fait partie d’une notion évolutive de la façon dont Alexa peut interagir avec les utilisateurs d’une manière plus humaine – ou peut-être plus humaine.
Les assistants intelligents comme Alexa ont traditionnellement fourni un modèle de questions-réponses beaucoup plus simpliste. Demandez à Alexa la météo, et Alexa vous indique la météo dans une zone prédéterminée. Demandez-lui le score des A (ou, honnêtement, ne le faites probablement pas), et Alexa vous dira le score des A. Il s’agit d’une interaction simple, semblable à la saisie d’une question dans un moteur de recherche. Mais, encore une fois, les conversations du monde réel se déroulent rarement de cette façon.
« Il y a toute une série de questions qu’Alexa reçoit, qui sont très informatives. Lorsque ces questions se posent, vous pouvez imaginer qu’elles ne sont pas des questions ponctuelles », a déclaré Prasad à TechCrunch lors d’une conversation lors de l’événement. « Il s’agit vraiment de quelque chose sur lequel le client veut en savoir plus. Ce qui nous préoccupe en ce moment, c’est ce qui se passe avec l’inflation. Nous recevons une tonne de demandes à Alexa comme ça, et cela vous donne ce genre d’expérience d’exploration.
De telles fonctionnalités de conversation, cependant, sont la manière dont un assistant à domicile comme Alexa se lance. Huit ans après avoir été lancé par Amazon, l’assistant est encore en train d’apprendre, de collecter des données et de déterminer les meilleures façons d’interagir avec les consommateurs. Même lorsque quelque chose arrive au point où Amazon est prêt à le montrer sur une scène liminaire, des ajustements sont toujours nécessaires.
« Alexa doit être un expert sur de nombreux sujets », a expliqué Prasad. « C’est le grand changement de paradigme, et ce genre d’expertise prend du temps à atteindre. Ce sera un voyage, et avec les interactions de nos clients, ce ne sera pas comme si Alexa saura tout dès le premier jour. Mais ces questions peuvent évoluer vers d’autres explorations où vous finissez par faire quelque chose que vous ne pensiez pas être.
Voir le mot « Empathy » en gros caractères gras sur la scène derrière Prasad a fait tourner les têtes – mais peut-être pas autant que ce qui est venu ensuite.
Il existe des scénarios simples où le concept d’empathie pourrait ou devrait être pris en compte lors d’une conversation avec des humains et des assistants intelligents. Prenez, par exemple, la capacité de lire les indices sociaux. C’est une compétence que nous acquérons par l’expérience – la capacité de lire le langage parfois subtil des visages et des corps. L’intelligence émotionnelle pour Alexa est une notion dont Prasad discute depuis des années. Cela commence par changer le ton de l’assistant pour répondre d’une manière exprimant le bonheur ou la déception.
Le revers de la médaille est de déterminer l’émotion d’un locuteur humain, un concept que l’entreprise travaille à perfectionner depuis plusieurs années. C’est un travail qui s’est manifesté de diverses manières, y compris les débuts en 2020 du portable controversé Halo de la société, qui propose une fonctionnalité appelée Tone qui prétendait «analyser l’énergie et la positivité dans la voix d’un client afin qu’il puisse comprendre comment il sonne pour les autres et améliorer son la communication et les relations. »
« Je pense que l’empathie et l’affect sont des moyens bien connus d’interagir, en termes d’établissement de relations », a déclaré Prasad. « Alexa ne peut pas être sourde à votre état émotionnel. Si vous êtes entré et que vous n’êtes pas de bonne humeur, il est difficile de dire ce que vous devriez faire. Quelqu’un qui vous connaît bien réagira différemment. C’est une barre très haute pour l’IA, mais c’est quelque chose que vous ne pouvez pas ignorer.
L’exécutif note qu’Alexa est déjà devenue une sorte de compagnon pour certains utilisateurs, en particulier parmi les plus âgés. Une approche plus conversationnelle ne ferait probablement qu’améliorer ce phénomène. Dans les démos d’Astro cette semaine, la société a fréquemment fait référence au robot domestique comme remplissant une fonction presque semblable à celle d’un animal de compagnie à la maison. De telles notions ont cependant leurs limites.
« Cela ne devrait pas cacher le fait qu’il s’agit d’une IA », a ajouté Prasad. « Quand il s’agit de l’essentiel [where] c’est indiscernable – ce dont nous sommes très loin – ça devrait quand même être très transparent.
Une vidéo ultérieure a démontré une nouvelle technologie de synthèse vocale impressionnante qui utilise aussi peu qu’une minute d’audio pour créer une approximation convaincante d’une personne qui parle. Dans celui-ci, la voix d’une grand-mère lit son petit-fils « Le magicien d’Oz ». L’idée de commémorer des êtres chers grâce à l’apprentissage automatique n’est pas entièrement nouvelle. Des entreprises comme MyHeritage utilisent la technologie pour animer des images de parents décédés, par exemple. Mais ces scénarios soulèvent invariablement – et de manière compréhensible – des problèmes.
Prasad n’a pas tardé à souligner que la démo était davantage une preuve de concept, mettant en évidence les technologies vocales sous-jacentes.
« C’était plus une question de technologie », a-t-il expliqué. « Nous sommes une entreprise scientifique très obsédée par le client. Nous voulons que notre science signifie quelque chose pour les clients. Contrairement à beaucoup de choses où la génération et la synthèse ont été utilisées sans les bonnes portes, cela ressemble à ce que les clients aimeraient. Nous devons leur donner le bon ensemble de contrôles, y compris à qui appartient la voix. »
Dans cet esprit, il n’y a pas de calendrier pour une telle fonctionnalité – si, en effet, une telle fonctionnalité existera un jour sur Alexa. Cependant, l’exécutif note que la technologie qui l’alimenterait est tout à fait opérationnelle dans les laboratoires Amazon. Cependant, encore une fois, si cela arrivait, cela nécessiterait une partie de la transparence susmentionnée.
« Contrairement aux deepfakes, si vous êtes transparent sur l’utilisation qui en est faite, qu’il y a un décideur clair et que le client contrôle ses données et à quoi il veut qu’elles soient utilisées, je pense que c’est la bonne série d’étapes. « , a expliqué Prasad. « Il ne s’agissait pas de ‘grand-mère morte’. La grand-mère est vivante dans celui-ci, juste pour être très clair à ce sujet.
Interrogé sur ce à quoi Alexa pourrait ressembler dans 10 à 15 ans, Prasad explique que tout est une question de choix, bien qu’il s’agisse moins d’imprégner Alexa de personnalités individuelles et uniques que d’offrir une plate-forme informatique flexible aux utilisateurs.
« Il devrait être capable d’accomplir tout ce que vous voulez », a-t-il déclaré. « Ce n’est pas seulement par la voix ; c’est l’intelligence au bon moment, c’est là qu’intervient l’intelligence ambiante. Elle devrait vous aider de manière proactive dans certains cas et anticiper votre besoin. C’est là que nous allons plus loin dans l’exploration conversationnelle. Tout ce que vous recherchez – imaginez combien de temps vous passez à réserver des vacances [when you don’t] avoir une agence de voyage. Imaginez combien de temps vous passez à acheter l’appareil photo ou le téléviseur que vous voulez. Tout ce qui vous oblige à passer du temps à chercher devrait devenir beaucoup plus rapide.