Aujourd’hui, nous nous rapprochons un peu plus de l’avenir immortel des célébrités qu’on nous promet depuis longtemps (depuis avril). Meta a dévoilé Voicebox, son modèle de synthèse vocale génératif qui promet de faire pour la parole ce que ChatGPT et Dall-E, respectueusement, ont fait pour la génération de texte et d’image.
Essentiellement, c’est un générateur de texte en sortie, tout comme GPT ou Dall-E – juste au lieu de créer de la prose ou de jolies images, il crache des clips audio. Meta définit le système comme « un modèle d’adaptation de flux non autorégressif formé pour remplir la parole, compte tenu du contexte audio et du texte ». Il a été formé sur plus de 50 000 heures d’audio non filtré. Plus précisément, Meta a utilisé des discours enregistrés et des transcriptions d’un tas de livres audio du domaine public écrits en anglais, français, espagnol, allemand, polonais et portugais.
Selon les chercheurs, cet ensemble de données diversifié permet au système de générer un discours plus conversationnel, quelles que soient les langues parlées par chaque partie. « Nos résultats montrent que les modèles de reconnaissance vocale formés sur la parole synthétique générée par Voicebox fonctionnent presque aussi bien que les modèles formés sur la parole réelle. » De plus, la parole générée par ordinateur s’est produite avec une dégradation du taux d’erreur de seulement 1 %, par rapport à la baisse de 45 à 70 % observée avec les modèles TTS existants.
Le système a d’abord appris à prédire les segments de parole en fonction des segments qui les entourent ainsi que de la transcription du passage. « Ayant appris à remplir la parole à partir du contexte, le modèle peut ensuite l’appliquer à toutes les tâches de génération de la parole, y compris la génération de parties au milieu d’un enregistrement audio sans avoir à recréer l’intégralité de l’entrée », ont expliqué les chercheurs de Meta.
Voicebox serait également capable d’éditer activement des clips audio, d’éliminer le bruit du discours et même de remplacer les mots mal prononcés. « Une personne pourrait identifier quel segment brut du discours est corrompu par le bruit (comme un chien qui aboie), le recadrer et demander au modèle de régénérer ce segment », ont déclaré les chercheurs, un peu comme utiliser un logiciel de retouche d’image pour nettoyer des photographies. .
Les générateurs de synthèse vocale existent depuis une minute – c’est ainsi que les TomToms de vos parents ont pu donner des indications routières douteuses dans la voix de Morgan Freeman. Les itérations modernes comme Speechify ou Prime Voice AI d’Elevenlab sont beaucoup plus performantes, mais elles nécessitent encore largement des montagnes de matériel source afin d’imiter correctement leur sujet, puis une autre montagne de données différentes pour chacun. seul. autre. sujet sur lequel vous voulez qu’il soit formé.
Ce n’est pas le cas de Voicebox, grâce à une nouvelle méthode d’entraînement de synthèse vocale à zéro coup, Meta, appelée Flow Matching. Les résultats de référence ne sont même pas proches car l’IA de Meta aurait surpassé l’état actuel de la technique à la fois en intelligibilité (un taux d’erreur de mot de 1,9 % contre 5,9 %) et en « similarité audio » (un score composite de 0,681 contre 0,580 pour la SOA), tout en fonctionnant jusqu’à 20 fois plus vite que les meilleurs systèmes TTS actuels.
Mais n’alignez pas encore vos navigateurs de célébrités, ni l’application Voicebox ni son code source ne sont rendus publics pour le moment, a confirmé Meta vendredi, citant « les risques potentiels d’utilisation abusive » malgré les « nombreuses utilisations passionnantes ». cas pour les modèles de discours génératifs. Au lieu de cela, la société a publié une série d’exemples audio (voir ci-dessus / ci-dessous) ainsi qu’un document de recherche initial du programme. À l’avenir, l’équipe de recherche espère que la technologie trouvera sa place dans les prothèses pour les patients souffrant de lésions des cordes vocales, les PNJ dans le jeu et les assistants numériques.