La plupart des modifications apportées par OpenAI à ChatGPT impliquent ce que le bot alimenté par l’IA peut faire: questions auxquelles il peut répondre, informations auxquelles il peut accéder, modèles sous-jacents améliorés. Cette fois, cependant, il s’agit de peaufiner la façon dont vous utilisez ChatGPT lui-même. La société déploie une nouvelle version du service qui vous permet d’inviter le robot IA non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à voix haute ou simplement en téléchargeant une image. Les nouvelles fonctionnalités seront déployées pour ceux qui paient pour ChatGPT dans les deux prochaines semaines, et tout le monde les obtiendra « peu de temps après », selon OpenAI.
La partie chat vocal est assez familière : vous appuyez sur un bouton et prononcez votre question, ChatGPT la convertit en texte et la transmet au grand modèle de langage, obtient une réponse, la reconvertit en parole et prononce la réponse à haute voix. Cela devrait ressembler à parler à Alexa ou à Google Assistant, seulement – OpenAI espère – les réponses seront meilleures grâce à la technologie sous-jacente améliorée. Il semble que la plupart des assistants virtuels soient reconstruits pour s’appuyer sur des LLM ; OpenAI est juste en avance sur le jeu.
L’excellent modèle Whisper d’OpenAI effectue une grande partie du travail de synthèse vocale, et la société déploie un nouveau modèle de synthèse vocale qui, selon elle, peut générer « un son de type humain à partir de seulement du texte et de quelques secondes d’échantillons de parole ». » Vous pourrez choisir la voix de ChatGPT parmi cinq options, mais OpenAI semble penser que le modèle a beaucoup plus de potentiel que cela. OpenAI travaille avec Spotify pour traduire des podcasts dans d’autres langues, par exemple, tout en conservant le son de la voix du podcasteur. Il existe de nombreuses utilisations intéressantes pour les voix synthétiques, et OpenAI pourrait jouer un rôle important dans cette industrie.
Mais le fait que vous puissiez créer une voix synthétique performante avec seulement quelques secondes d’audio ouvre également la porte à toutes sortes de cas d’utilisation problématiques. « Ces fonctionnalités présentent également de nouveaux risques, tels que la possibilité pour des acteurs malveillants de se faire passer pour des personnalités publiques ou de commettre des fraudes », indique la société dans un article de blog annonçant les nouvelles fonctionnalités. Le modèle n’est pas disponible pour une utilisation généralisée précisément pour cette raison, explique OpenAI : il sera beaucoup plus contrôlé et limité à des cas d’utilisation et à des partenariats spécifiques.
La recherche d’images, quant à elle, ressemble un peu à Google Lens. Vous prenez une photo de tout ce qui vous intéresse et ChatGPT essaiera de comprendre ce que vous demandez et de répondre en conséquence. Vous pouvez également utiliser l’outil de dessin de l’application pour clarifier votre requête, ou prononcer ou saisir des questions pour accompagner l’image. C’est là que la nature aller-retour de ChatGPT est utile : plutôt que de faire une recherche, d’obtenir la mauvaise réponse, puis de faire une autre recherche, vous pouvez inviter le bot et affiner la réponse au fur et à mesure. (Cela ressemble également beaucoup à ce que Google fait avec la recherche multimodale.)
De toute évidence, la recherche d’images présente également des problèmes potentiels. La première est ce qui pourrait arriver lorsque vous demandez à un chatbot de parler d’une personne : OpenAI affirme avoir délibérément limité la « capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes », à la fois pour des raisons d’exactitude et de confidentialité. Cela signifie l’une des visions les plus science-fiction de l’IA : la capacité de regarder quelqu’un et de dire : « qui est-ce ? » – n’arrivera pas de sitôt. Ce qui est probablement une bonne chose.
Près d’un an après le lancement initial de ChatGPT, OpenAI semble toujours essayer de trouver comment donner à son bot plus de fonctionnalités et de capacités sans créer de nouveaux problèmes et inconvénients. Avec ces versions, la société a tenté de suivre cette ligne en limitant délibérément ce que ses nouveaux modèles peuvent faire. Mais cette approche ne fonctionnera pas éternellement. À mesure que de plus en plus de personnes utilisent la commande vocale et la recherche d’images, et que ChatGPT se rapproche de plus en plus d’un assistant virtuel véritablement multimodal et utile, il deviendra de plus en plus difficile de maintenir les garde-fous.