Spotify utilise l’IA pour cloner et traduire les voix des podcasteurs dans un nouveau programme pilote

Lundi, Spotify a déployé un programme pilote limité qui utilise l’IA pour traduire automatiquement les podcasts dans différentes langues, en utilisant la technologie de synthèse vocale d’OpenAI pour préserver la voix originale de l’orateur. La fonctionnalité vise à offrir une expérience d’écoute plus authentique par rapport au doublage traditionnel. Cela pourrait également introduire des erreurs de langue difficiles à détecter pour les locuteurs non natifs, la traduction automatique étant loin d’être une technologie parfaite.

Dans son communiqué annonçant le programme, Spotify affirme qu’il s’agit d’une plateforme qui permet aux créateurs de partager leur travail à travers le monde. Ensuite, il pose une question : « Avec les progrès récents, nous nous demandons : existe-t-il d’autres moyens de combler le fossé linguistique afin que ces voix puissent être entendues dans le monde entier ?

La réponse de Spotify est la traduction vocale, qui serait capable de traduire les voix anglaises en espagnol, français et allemand tout en conservant les caractéristiques vocales distinctives de l’orateur. La fonctionnalité n’est actuellement utilisée qu’avec certains podcasteurs, tels que Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons et Steven Bartlett.

« Nous pensons qu’une approche réfléchie de l’IA peut aider à établir des liens plus profonds entre les auditeurs et les créateurs, un élément clé de la mission de Spotify visant à libérer le potentiel de la créativité humaine », a déclaré Ziad Sultan, vice-président de la personnalisation de Spotify, dans l’annonce.

Spotify indique que les épisodes traduits seront disponibles dans le monde entier pour les utilisateurs Premium et Free. Les utilisateurs peuvent accéder aux traductions via la « vue en cours de lecture » ​​de Spotify pour les épisodes pris en charge ou via un hub de traduction vocale dédié qui continuera à ajouter davantage de contenu traduit.

Sur X, Lex Friedman a posté un échantillon de sa voix cloné et traduit en espagnol, en écrivant : « C’est moi qui parle espagnol, grâce au travail incroyable de Spotify Ingénieurs en IA. La traduction et le clonage vocal sont entièrement effectués par l’IA. La langue peut créer des barrières à la compréhension et ainsi alimenter la division. J’ai hâte que l’IA brise cette barrière et révèle notre humanité commune. »

Perdu dans la traduction

Mais tous les podcasteurs ne sont pas enthousiasmés par le potentiel des traductions automatisées par l’IA. Réagissant aux nouvelles sur BlueSky, le co-créateur et co-animateur de Retronauts, Jeremy Parish, a posté : « Une autre raison de lever les yeux au ciel quand les gens demandent pourquoi nous ne rendons pas le podcast disponible sur Spotify. »

Dans le passé, nous avons vu la technologie de clonage vocal de Microsoft et Meta analyser des échantillons de l’audio source, puis augmenter cet audio avec un vaste ensemble de données de formation de voix pour synthétiser une nouvelle voix similaire. Cette technologie peut potentiellement échouer lorsque le style vocal d’une personne n’est pas bien représenté dans l’ensemble de données d’échantillons d’entraînement, en particulier avec certains accents.

Ici, Spotify ajoute une couche supplémentaire de complexité, dans l’espoir de traduire de manière transparente le sens entre les langues sans commettre d’erreurs, ce que Meta a également tenté avec SeamlessM4T. Au cours de la dernière décennie, la traduction basée sur l’IA a fait de grands progrès, mais elle n’a pas complètement mis les traducteurs humains hors jeu. Les experts du secteur soulignent que ces systèmes se heurtent encore aux nuances et ne comprennent pas le contexte culturel, ce qui affecte la qualité du matériel traduit.

Les utilisateurs férus de technologie s’attendent probablement à des erreurs de traduction lorsque la source est correctement présentée comme une traduction automatique, mais lorsque les erreurs proviennent de la propre voix du podcasteur, cela peut ajouter une nouvelle dimension de problème, surtout si l’audio traduit est sorti de son contexte et plus tard présumé être original. De plus, si l’orateur d’origine ne connaît pas la langue traduite, il ne peut pas vérifier si la traduction reflète fidèlement ses intentions initiales. Cela revient à accorder une grande confiance (et une réputation personnelle) à une technologie d’automatisation non éprouvée.

Pour l’instant, il semble que le programme Spotify fonctionne sur une base limitée et volontaire uniquement parmi certains podcasteurs, de sorte que les questions de consentement concernant le clonage des voix des invités du podcast ne semblent pas être en jeu à moins que cela ne soit déployé plus largement. À l’avenir, Spotify espère recueillir les commentaires des créateurs et des auditeurs pour affiner la fonctionnalité de traduction vocale. Cependant, avec plus de 100 millions d’auditeurs réguliers de podcasts sur la plateforme, cela représente 100 millions de façons dont cette expérience pourrait mal se dérouler si la technologie de traduction commettait des erreurs embarrassantes.

Source-147