À la WWDC 2024, l’IA pourrait faire de Siri l’assistant vocal qu’Apple a toujours voulu

Lorsque Apple a lancé Siri pour la première fois en 2011 aux côtés de l’iPhone 4S, la société a réalisé une série de publicités très convaincantes montrant comment vous pouvez utiliser ce nouvel assistant vocal. Dans l’une d’entre elles, Zooey Deschanel demande sur son téléphone si elle lui livre de la soupe aux tomates ; dans un autre, John Malkovich demande des conseils de vie existentielle. Il y en a aussi un avec Martin Scorsese modifiant son emploi du temps depuis l’arrière d’un taxi new-yorkais. Ils affichaient des rappels, la météo, des alarmes et bien plus encore. Le but des publicités était que Siri était un compagnon utile et constant, capable de répondre à tous vos besoins. Aucune application ou robinet nécessaire. Il suffit de demander.

Siri était un gros problème pour Apple. Lors de l’événement de lancement du 4S, Phil Schiller d’Apple a déclaré que Siri était la meilleure fonctionnalité du nouvel appareil. « Pendant des décennies, les technologues nous ont tourmentés avec ce rêve selon lequel vous pourrez parler à la technologie et qu’elle fera des choses pour nous », a-t-il déclaré. « Mais cela ne se réalise jamais! » Tout ce que nous voulons vraiment faire, a-t-il déclaré, c’est parler à notre appareil comme bon nous semble et obtenir des informations et de l’aide. Dans un moment de bravade classique d’Apple, Schiller a proclamé qu’Apple avait résolu le problème.

Apple ne l’avait pas résolu. Au cours des 13 années qui ont suivi ce lancement initial, Siri est devenu, pour la plupart des gens, soit un moyen de régler des minuteries, soit une fonctionnalité inutile à éviter à tout prix. Siri est mauvais depuis longtemps, suffisamment longtemps pour qu’il semble pendant des années qu’Apple l’a oublié ou a simplement choisi de faire comme si il n’existait pas.

Mais la semaine prochaine à la WWDC, si les rumeurs et les rapports sont vrais, nous pourrions être sur le point de rencontrer le vrai Siri pour la première fois – ou du moins quelque chose de beaucoup plus proche. Selon Bloomberg, Le New York Times, et d’autres, Apple va dévoiler une énorme refonte de l’assistant, rendant Siri plus fiable grâce à de grands modèles de langage mais sans beaucoup de nouvelles fonctionnalités. Même cela serait une victoire. Mais Apple semble également travailler sur, et pourrait être presque prêt à lancer, une version de Siri qui s’intégrera réellement dans les applications, ce qui signifie que l’assistant pourra agir sur votre appareil en votre nom. En théorie, au moins, tout ce que vous pouvez faire sur votre téléphone, Siri pourrait bientôt le faire pour vous.

Cela a évidemment toujours été la vision de Siri. Vous pouvez même le voir dans ces publicités pour iPhone 4S : ces célébrités demandent de l’aide à Siri, et Siri ne termine presque jamais le travail. Il fournit à Deschanel une liste de restaurants qui mentionnent la livraison mais ne propose pas de commander quoi que ce soit ni de lui montrer le menu. Il informe Scorsese qu’il y a du trafic mais ne le redirige pas – et ne devrait-il pas déjà savoir qu’il va être en retard à son rendez-vous ? Siri dit à Malkovich d’être gentil avec les gens et de lire un bon livre, mais ne propose aucune aide pratique. Jusqu’à présent, utiliser Siri, c’est comme avoir un assistant virtuel dont le seul travail consiste à rechercher des informations sur Google à votre place. Ce qui est quelque chose ! Mais ce n’est pas grand-chose.

Les incapacités de Siri ont été d’autant plus frustrantes que tout ce dont il a besoin pour être utile est juste là sur ton téléphone. Lorsque je veux une pizza, pourquoi Siri ne peut-il pas vérifier dans mes e-mails le reçu de la dernière commande, ouvrir DoorDash, saisir la même commande, payer avec l’une des cartes de mon Apple Wallet et en finir ? Si j’ai une journée bien remplie au niveau Scorsese, Siri semble être là à côté de tous mes contacts, de mon Slack, de ma messagerie électronique et de tout ce dont il a besoin pour déplacer rapidement des éléments en mon nom. Si Siri pouvait prendre le contrôle de mon téléphone comme l’un de ces outils d’accès à distance qui permet à quelqu’un d’autre de déplacer le curseur de votre ordinateur, ce serait imparable.

Il y a en réalité deux raisons pour lesquelles Siri n’a jamais exploité son potentiel de cette manière. La première est simple : la technologie sous-jacente n’était pas assez performante. Si vous avez utilisé Siri, vous savez à quelle fréquence il entend mal les noms, comprend mal les commandes et revient à « voici quelques trucs que j’ai trouvés sur le Web » alors que tout ce que vous vouliez était de lire un podcast. C’est là que les grands modèles linguistiques sont sans équivoque très intéressants, car nous avons vu à quel point les outils de synthèse vocale tels que Whisper sont meilleurs et à quel point ces modèles peuvent comprendre le langage de manière beaucoup plus large. Ils ne sont pas parfaits, mais ils représentent une énorme amélioration par rapport à ce que nous avions auparavant – c’est pourquoi Amazon fait également pivoter Alexa vers les LLM et l’Assistant de Google est dépassé par Gemini.

La deuxième raison pour laquelle Siri n’a jamais vraiment fonctionné est simplement que ni Apple ni les développeurs tiers n’ont jamais compris comment cela fonctionnait. devrait travail. Comment êtes-vous censé savoir ce que Siri peut faire ou comment le demander ? Comment les développeurs sont-ils censés intégrer Siri ? Même maintenant, si vous souhaitez ajouter une tâche à votre application de liste de tâches, Siri ne peut pas simplement déterminer quelle application vous utilisez. Tu dois dire, Dis Siri, rappelle-moi d’arroser l’herbe sur Todoist, ce qui est une phrase étrange qui n’a aucun sens et, d’après mon expérience, échoue de toute façon la moitié du temps. Si vous souhaitez effectuer une action en plusieurs étapes, votre seule option est de vous amuser dans les raccourcis, qui est un outil très puissant mais qui est loin de vous obliger à écrire du code. C’est trop pour la plupart des gens.

L’IA pourrait également donner à Apple une chance de mettre fin à l’ensemble du problème. Ses chercheurs ont publié un article plus tôt cette année détaillant un système appelé Ferret-UI, qui utilise un modèle d’IA pour comprendre les petits détails d’une image à l’écran. Les chercheurs détaillent même comment une application globale utilisant Siri pourrait fonctionner : le GPT-4 d’OpenAI fait un bon travail pour comprendre globalement ce qu’est une image, et Ferret est alors capable de comprendre de petites régions et des détails. En pratique, cela pourrait signifier qu’un système dit : « Voici l’application Ticketmaster ! » et l’autre dit : « C’est là que se trouve le bouton d’achat. »

Nous devrions être sceptiques quant aux affirmations d’Apple concernant Siri. Il y a plus de dix ans, Schiller est monté sur scène et a proclamé qu’Apple avait construit un meilleur assistant vocal, mais ce n’était pas le cas. La même chose pourrait être vraie aujourd’hui, alors que le battage médiatique autour de l’IA continue d’évoluer beaucoup plus rapidement que la technologie actuelle. Humane, Rabbit, Google et d’autres travaillent tous sur des idées similaires – « agent » est le mot à la mode de l’été dans le monde de l’IA – et personne n’a encore démontré que c’était prêt.

Mais si Apple a résolu quelque chose ici, cela pourrait être la première fois que nous voyons le vrai Siri – le Siri qui nous avait été promis il y a toutes ces années. Peut-être que dans la prochaine publicité, la soupe aux tomates de Deschanel apparaîtra comme par magie chez elle et que l’application Headspace se lancera pour apporter à Malkovich un peu de paix intérieure. Peut-être que nous obtiendrons enfin le Siri qu’Apple a toujours voulu créer.

source site-132