Microsoft a dévoilé un nouveau modèle d’IA text-to-speech appelé VALL-E qui peut simuler avec précision la voix de n’importe qui avec seulement un clip audio de trois secondes pendant qu’il parle.
Tel que rapporté par Ars Technica (s’ouvre dans un nouvel onglet)les chercheurs du géant du logiciel ont démontré VALL-E en action dans un nouveau document de recherche (s’ouvre dans un nouvel onglet) et démo GitHub. Bien qu’il en soit encore à ses balbutiements, VALL-E impressionne déjà la communauté scientifique – et nous effraie le reste d’entre nous – avec sa capacité à synthétiser l’audio d’une personne disant n’importe quoi tout en préservant son ton émotionnel.
Les créateurs de VALL-E pensent que leur nouveau modèle d’IA pourrait un jour être utilisé dans un logiciel de synthèse vocale, pour éditer des enregistrements préexistants et même pour créer de nouveaux sons lorsqu’il est utilisé avec d’autres modèles d’IA comme GPT-3.
Selon Microsoft, VALL-E est un « modèle de langage de codec neuronal » qui s’appuie sur une technologie de Meta appelée EnCodec annoncée en octobre de l’année dernière. Il se distingue des autres méthodes de synthèse vocale en générant des codes de codec audio discrets à partir de messages textuels et acoustiques, au lieu de manipuler des formes d’onde pour générer de la parole.
Synthétiser un discours personnalisé
Afin de synthétiser la parole personnalisée, VALL-E génère des jetons acoustiques après avoir écouté un clip de trois secondes d’une personne qui parle, puis les utilise pour «synthétiser la forme d’onde finale avec le décodeur de codec neuronal correspondant», selon les chercheurs de Microsoft.
Pour former son nouveau modèle d’IA, les chercheurs de l’entreprise ont utilisé une bibliothèque audio de Meta appelée LibriLight. La bibliothèque elle-même est composée de 60 000 heures de discours en anglais de plus de 7 000 locuteurs, bien que la plupart de ces discours enregistrés aient été extraits de livres audio du domaine public.
Si vous souhaitez voir à quel point le discours personnalisé de VALL-E est réaliste, vous devriez consulter la démo sur GitHub car elle contient des dizaines d’échantillons audio de l’IA en action (illustrés dans la vidéo ci-dessus). Dans ces échantillons, le « Speaker Prompt » est le clip audio original de trois secondes tandis que le « Ground Truth » est un enregistrement de ce même haut-parleur prononçant une phrase particulière. Pendant ce temps, la « Baseline » est un exemple d’un autre modèle de synthèse vocale et l’échantillon « VALL-E » est celui généré par le nouveau modèle d’IA de Microsoft.
Une autre chose intéressante à propos de VALL-E est qu’il peut imiter «l’environnement acoustique» des clips de trois secondes utilisés pour imiter la voix des gens. Cela signifie que si le haut-parleur d’origine était dans sa voiture ou au téléphone, le modèle d’IA produira un discours avec les mêmes caractéristiques acoustiques.
VALL-E ne sera pas utilisé de sitôt dans les deepfakes
Faux faux ont le potentiel de bouleverser notre monde car nous ne pourrons plus savoir avec certitude si les clips vidéo ou audio que nous voyons sont authentiques. C’est pourquoi, contrairement à ChatGPTMicrosoft n’a pas et n’a pas l’intention de rendre VALL-E généralement disponible.
Le géant du logiciel a également veillé à ce qu’un modèle de détection puisse être construit pour dire si un clip audio a été créé ou non par son nouveau modèle d’IA. Dans le même temps, Microsoft a promis de mettre ses Principes de l’IA « en pratique lors du développement ultérieur des modèles ».