Des chercheurs d’Amazon ont formé le plus grand modèle de synthèse vocale jamais réalisé, qui, selon eux, présente des qualités « émergentes » améliorant sa capacité à prononcer naturellement des phrases complexes. La percée pourrait être ce dont la technologie a besoin pour échapper à l’étrange vallée.
Ces modèles allaient toujours se développer et s’améliorer, mais les chercheurs espéraient spécifiquement constater le type de saut de capacité que nous avons observé une fois que les modèles de langage dépassaient une certaine taille. Pour des raisons qui nous sont inconnues, une fois que les LLM ont dépassé un certain point, ils commencent à être beaucoup plus robustes et polyvalents, capables d’effectuer des tâches pour lesquelles ils n’étaient pas formés.
Cela ne veut pas dire qu’ils gagnent en sensibilité ou quoi que ce soit, mais simplement qu’au-delà d’un certain point, leurs performances sur certaines tâches conversationnelles d’IA sont des bâtons de hockey. L’équipe d’Amazon AGI – ce qu’elle vise – a pensé que la même chose pourrait se produire à mesure que les modèles de synthèse vocale se développeraient également, et leurs recherches suggèrent que c’est effectivement le cas.
Le nouveau modèle s’appelle Big Adaptive Streamable TTS avec des capacités émergentes, qu’ils ont transformé en abréviation BASE TTS. La plus grande version du modèle utilise 100 000 heures de parole du domaine public, dont 90 % en anglais, le reste en allemand, néerlandais et espagnol.
Avec 980 millions de paramètres, BASE-large semble être le plus grand modèle de cette catégorie. Ils ont également formé des modèles à 400 M et 150 M de paramètres basés sur 10 000 et 1 000 heures d’audio respectivement, à titre de comparaison. L’idée étant que si l’un de ces modèles montre des comportements émergents mais pas un autre, vous disposez d’une plage pour savoir où commencent ces comportements. à émerger.
Il s’avère que le modèle de taille moyenne a montré l’augmentation des capacités que l’équipe recherchait, pas nécessairement dans la qualité de la parole ordinaire (elle est mieux évaluée mais seulement sur quelques points) mais dans l’ensemble des capacités émergentes qu’ils ont observées et mesurées. . Voici des exemples de textes délicats mentionnés dans l’article :
- Noms composés: Les Beckham ont décidé de louer une charmante maison de vacances pittoresque en pierre.
- Émotions: « Oh mon Dieu! Allons-nous vraiment aux Maldives ? C’est incroyable! » Jennie a crié, rebondissant sur la pointe des pieds avec une joie incontrôlée.
- Mots étrangers: « M. Henry, réputé pour sa mise en place, a orchestré un repas de sept plats, chaque plat étant une pièce de résistance.
- Paralinguistique (c’est-à-dire des non-mots lisibles) : « Chut, Lucy, chut, nous ne devons pas réveiller ton petit frère », murmura Tom alors qu’ils passaient devant la crèche sur la pointe des pieds.
- Ponctuations: Elle a reçu un étrange texto de son frère : « Urgence à la maison ; appelez dès que possible ! Maman et papa sont inquiets…#familymatters.’
- Des questions: Mais la question du Brexit demeure : après toutes les épreuves et tribulations, les ministres trouveront-ils les réponses à temps ?
- Complexités syntaxiques: Le film que De Moya, qui a récemment reçu le prix pour l’ensemble de sa carrière, a joué en 2022 a été un succès au box-office, malgré des critiques mitigées.
« Ces phrases sont conçues pour contenir des tâches difficiles : analyser des phrases de chemin de jardin, mettre l’accent sur des noms composés de longue haleine, produire un discours émotionnel ou chuchoté, ou produire les phonèmes corrects pour des mots étrangers comme « qi » ou des ponctuations comme « @ ». – aucun de ces éléments pour lesquels BASE TTS n’est explicitement formé », écrivent les auteurs.
De telles fonctionnalités déclenchent normalement les moteurs de synthèse vocale, qui prononcent mal, sautent des mots, utilisent une intonation étrange ou commettent d’autres erreurs. BASE TTS avait encore des problèmes, mais il s’en sortait bien mieux que ses contemporains – des modèles comme Tortoise et VALL-E.
Il existe de nombreux exemples de ces textes difficiles prononcés tout naturellement par le nouveau modèle sur le site qu’ils ont créé pour lui. Bien sûr, ceux-ci ont été choisis par les chercheurs, ils sont donc nécessairement triés sur le volet, mais c’est impressionnant quand même. En voici quelques-uns, si vous n’avez pas envie de cliquer :
Étant donné que les trois modèles BASE TTS partagent une architecture, il semble clair que la taille du modèle et l’étendue de ses données d’entraînement semblent être la cause de la capacité du modèle à gérer certaines des complexités ci-dessus. Gardez à l’esprit qu’il s’agit toujours d’un modèle et d’un processus expérimentaux – pas d’un modèle commercial ou quoi que ce soit. Les recherches ultérieures devront identifier le point d’inflexion de la capacité émergente et comment former et déployer efficacement le modèle résultant.
Notamment, ce modèle est « streamable », comme son nom l’indique, ce qui signifie qu’il n’a pas besoin de générer des phrases entières à la fois, mais qu’il se déroule d’instant en instant à un débit binaire relativement faible. L’équipe a également tenté de regrouper les métadonnées vocales telles que l’émotivité, la prosodie, etc. dans un flux distinct à faible bande passante qui pourrait accompagner l’audio vanille.
Il semble que les modèles de synthèse vocale pourraient connaître un moment décisif en 2024 – juste à temps pour les élections ! Mais on ne peut nier l’utilité de cette technologie, notamment pour l’accessibilité. L’équipe note qu’elle a refusé de publier la source du modèle et d’autres données en raison du risque que de mauvais acteurs en profitent. Mais le chat finira par sortir de ce sac.