La nouvelle IA VALL-E effrayante de Microsoft peut imiter la voix de n’importe qui en seulement 3 secondes

Microsoft a dévoilé un nouveau modèle d’IA text-to-speech appelé VALL-E qui peut simuler avec précision la voix de n’importe qui avec seulement un clip audio de trois secondes pendant qu’il parle.

Tel que rapporté par Ars Technica (s’ouvre dans un nouvel onglet)les chercheurs du géant du logiciel ont démontré VALL-E en action dans un nouveau document de recherche (s’ouvre dans un nouvel onglet) et démo GitHub. Bien qu’il en soit encore à ses balbutiements, VALL-E impressionne déjà la communauté scientifique – et nous effraie le reste d’entre nous – avec sa capacité à synthétiser l’audio d’une personne disant n’importe quoi tout en préservant son ton émotionnel.

Source-131