OpenAI a commencé à déployer mardi une version alpha de son nouveau mode vocal avancé auprès d’un petit groupe d’abonnés à ChatGPT Plus. Cette fonctionnalité, dont OpenAI a fait la démonstration en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l’IA plus naturelles et plus réactives. En mai, la fonctionnalité a suscité des critiques sur son expressivité émotionnelle simulée et a déclenché une dispute publique avec l’actrice Scarlett Johansson, accusée d’avoir copié sa voix par OpenAI. Malgré tout, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les réseaux sociaux ont été largement enthousiastes.
Dans les premiers tests rapportés par les utilisateurs ayant accès à ChatGPT, le mode vocal avancé leur permet d’avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d’interrompre l’IA au milieu d’une phrase presque instantanément. Il peut détecter et répondre aux signaux émotionnels d’un utilisateur par le biais du ton et de la prononciation de la voix, et fournir des effets sonores tout en racontant des histoires.
Mais ce qui a surpris beaucoup de gens au début, c’est la façon dont les voix simulent une inspiration tout en parlant.
« Le mode vocal avancé de ChatGPT compte aussi vite qu’il le peut jusqu’à 10, puis jusqu’à 50 (cela m’a époustouflé, il s’est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit le rédacteur technique Cristiano Giardina sur X.
Le mode vocal avancé simule des pauses audibles pour respirer car il a été formé sur des échantillons audio de personnes parlant qui incluaient la même fonction. Le modèle a appris à simuler des inhalations à des moments apparemment appropriés après avoir été exposé à des centaines de milliers, voire des millions, d’exemples de discours humains. Les grands modèles de langage (LLM) comme GPT-4o sont des maîtres imitateurs, et cette compétence s’étend désormais au domaine audio.
Giardina a partagé ses autres impressions sur Mode vocal avancé sur X, y compris des observations sur les accents dans d’autres langues et les effets sonores.
« « C’est très rapide, il n’y a pratiquement aucune latence entre le moment où vous arrêtez de parler et celui où il répond », a-t-il écrit. « Quand vous lui demandez de faire des bruits, il fait toujours « jouer » les bruits par la voix (avec des résultats amusants). Il peut faire des accents, mais quand il parle d’autres langues, il a toujours un accent américain. (Dans la vidéo, ChatGPT joue le rôle d’un commentateur de match de football)«
En parlant d’effets sonores, l’utilisateur de X Kesku, qui est modérateur du serveur Discord d’OpenAI, a partagé un exemple de ChatGPT jouant plusieurs parties avec différentes voix et un autre d’une voix racontant une histoire de science-fiction ressemblant à un livre audio à partir de l’invite : « Racontez-moi une histoire d’action passionnante avec des éléments de science-fiction et créez une atmosphère en faisant des bruits appropriés aux choses qui se passent en utilisant des onomatopées. »
Kesku nous a également présenté quelques exemples, notamment une histoire sur la mascotte d’Ars Technica, « Moonshark ».
Il lui a également demandé de chanter la « Chanson du major-général » de l’opéra comique de Gilbert et Sullivan de 1879. Les pirates de Penzance :
Manuel Sainsily, un fervent défenseur de l’intelligence artificielle, a publié une vidéo dans laquelle il montre le mode vocal avancé réagissant aux commandes de la caméra et prodiguant des conseils sur la façon de prendre soin d’un chaton. « C’est comme si on discutait en face-à-face avec un ami très compétent, ce qui dans ce cas-ci s’est avéré très utile, nous rassurant avec notre nouveau chaton », a-t-il écrit. « Il peut répondre aux questions en temps réel et utiliser la caméra comme entrée également ! »
Bien sûr, étant basé sur un LLM, il peut occasionnellement fabuler des réponses incorrectes sur des sujets ou dans des situations où ses « connaissances » (qui proviennent de l’ensemble de données de formation de GPT-4o) font défaut. Mais si l’on considère cela comme une démonstration technique ou un divertissement alimenté par l’IA et que vous êtes conscient des limites, le mode vocal avancé semble exécuter avec succès de nombreuses tâches présentées par la démonstration d’OpenAI en mai.
Sécurité
Un porte-parole d’OpenAI a déclaré à Ars Technica que la société a travaillé avec plus de 100 testeurs externes sur la version Advanced Voice Mode, parlant collectivement 45 langues différentes et représentant 29 zones géographiques. Le système serait conçu pour empêcher l’usurpation d’identité d’individus ou de personnalités publiques en bloquant les sorties qui diffèrent des quatre voix prédéfinies choisies par OpenAI.
OpenAI a également ajouté des filtres pour reconnaître et bloquer les demandes de création de musique ou d’autres fichiers audio protégés par des droits d’auteur, ce qui a mis d’autres sociétés d’IA en difficulté. Giardina a signalé une « fuite » audio dans certaines sorties audio contenant de la musique involontaire en arrière-plan, ce qui montre qu’OpenAI a entraîné le modèle vocal AVM sur une grande variété de sources audio, probablement à la fois à partir de matériel sous licence et d’audio récupéré à partir de plateformes vidéo en ligne.
Disponibilité
OpenAI prévoit d’étendre l’accès à davantage d’utilisateurs de ChatGPT Plus dans les semaines à venir, avec un lancement complet pour tous les abonnés Plus prévu cet automne. Un porte-parole de l’entreprise a déclaré à Ars que les utilisateurs du groupe de test alpha recevront une notification dans l’application ChatGPT et un e-mail avec des instructions d’utilisation.
Depuis la première prévisualisation de la voix GPT-4o en mai, OpenAI affirme avoir amélioré la capacité du modèle à prendre en charge des millions de conversations vocales simultanées en temps réel tout en maintenant une faible latence et une haute qualité. En d’autres termes, ils se préparent à une ruée qui nécessitera beaucoup de calculs en arrière-plan.