Les outils de génération de voix d’ElevenLabs sont sortis de la version bêta

ElevenLabs, la plateforme virale basée sur l’IA pour créer des voix synthétiques, a lancé aujourd’hui sa plateforme en version bêta avec prise en charge de plus de 30 langues.

Grâce à un nouveau modèle d’IA développé en interne, ElevenLabs affirme que ses outils sont désormais capables d’identifier automatiquement les langues, notamment le coréen, le néerlandais et le vietnamien, et de générer un discours « riche en émotions » dans ces langues.

En combinaison avec le nouveau modèle, les clients d’ElevenLabs peuvent tirer parti de l’outil de clonage vocal de la plateforme pour parler dans près de 30 langues sans avoir à saisir de texte au préalable.

« ElevenLabs a été créé avec le rêve de rendre tout le contenu universellement accessible dans n’importe quelle langue et avec n’importe quelle voix », a déclaré Mati Staniszewski, PDG et co-fondateur d’ElevenLabs, dans un communiqué. « Avec cette version, nous sommes sur le point de faire de ce rêve une réalité et de rendre les voix d’IA de qualité humaine disponibles dans tous les dialectes. Nos outils de génération de synthèse vocale contribuent à uniformiser les règles du jeu et à offrir des capacités audio parlées de qualité supérieure à tous les créateurs.

Fondé par Staniszewski, qui travaillait auparavant chez Palantir, et son ami d’enfance Piotr Dabkowski, ancien employé de Google, ElevenLabs a fait la une des journaux ces derniers mois pour des raisons à la fois bonnes et odieuses. Inspirés par le doublage médiocre des films américains que Staniszewski et Dabkowski ont regardés en grandissant en Pologne, les deux hommes ont commencé à concevoir une plate-forme qui pourrait faire mieux – en utilisant bien sûr l’IA.

ElevenLabs a été lancé en version bêta fin janvier et a pris de l’ampleur assez rapidement, en raison de la haute qualité de ses voix générées et de son généreux niveau gratuit. Mais comme nous l’avons mentionné précédemment, la publicité n’a pas toujours été positive, en particulier lorsque de mauvais acteurs ont exploité la plateforme à leurs propres fins.

Le tristement célèbre forum de discussion 4chan, connu pour son contenu conspirateur, a utilisé les outils d’ElevenLabs pour partager des messages haineux imitant des célébrités comme l’actrice Emma Watson. Ailleurs, James Vincent de The Verge a pu utiliser ElevenLabs pour cloner les voix des cibles en quelques secondes, générant des échantillons audio contenant tout, des menaces de violence aux expressions de racisme et de transphobie.

En réponse, ElevenLabs a déclaré qu’il introduirait un ensemble de nouvelles garanties, comme limiter le clonage vocal aux comptes payants et fournir un nouvel outil de détection de l’IA.

ElevenLabs n’a pas encore fait face à l’autre controverse qui couve autour de sa plateforme et d’autres plateformes similaires : leur menace pour l’industrie du doublage.

Carte mère écrit sur la façon dont les acteurs de la voix sont de plus en plus invités à renoncer aux droits sur leur voix afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer. Pendant ce temps, des courriels internes consultés par le New York Times indiquent qu’Activision Blizzard, l’un des plus grands éditeurs de jeux au monde, travaille sur des outils de « clonage vocal » assistés par l’IA.

Il semblerait qu’ElevenLabs considère cela comme une progression naturelle des choses, vantant son travail avec des éditeurs comme Storytel ; des plateformes médiatiques comme TheSoul Publishing et MNTN pour les livres audio et le contenu radio ; et des éditeurs comme Embark Studios et Paradox Interactive pour les jeux vidéo (Storytel et TheSoul Publishing sont des investisseurs stratégiques). La société affirme compter plus d’un million d’utilisateurs enregistrés dans les espaces de création, de divertissement et d’édition qui ont créé 10 ans de contenu audio.

ElevenLabs, qui a récemment levé 19 millions de dollars auprès d’investisseurs, dont Andreessen Horowitz et le co-fondateur de DeepMind, Mustafa Suleyman, pour une valorisation de 99 dollars, prévoit d’étendre à terme ses modèles d’IA au doublage vocal – en suivant les traces de startups comme Papercup et Deepdub et en construisant ce qu’il appelle « une base pour pouvoir transférer les émotions et l’intonation d’une langue à une autre ».

Au-delà de ça, ElevenLabs le dit envisage d’introduire un mécanisme qui permettra aux utilisateurs de partager des voix sur la plateforme, même si les détails restent flous.

Source-146