Il y a beaucoup d’argent dans le clonage vocal.
Exemple concret : ElevenLabs, une startup développant des outils basés sur l’IA pour créer et éditer des voix synthétiques, a annoncé aujourd’hui avoir clôturé un cycle de série B de 80 millions de dollars codirigé par des investisseurs de premier plan, dont Andreessen Horowitz, l’ancien PDG de GitHub Nat Friedman et l’entrepreneur Daniel Gross. .
Le cycle, auquel ont également participé Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital et Credo Ventures, porte le total levé d’ElevenLabs à 101 millions de dollars et valorise l’entreprise à plus d’un milliard de dollars (contre environ 100 millions de dollars en juin dernier). Le PDG Mati Staniszewski a déclaré que les nouveaux fonds seront consacrés au développement de produits, à l’expansion de l’infrastructure et de l’équipe d’ElevenLabs, à la recherche sur l’IA et au « renforcement des mesures de sécurité pour garantir un développement responsable et éthique de la technologie de l’IA ».
« Nous avons levé de nouveaux fonds pour consolider la position d’ElevenLabs en tant que leader mondial de la recherche sur l’IA vocale et du déploiement de produits », a déclaré Staniszewski à TechCrunch dans une interview par courrier électronique.
Cofondé en 2022 par Piotr Dabkowski, ancien ingénieur en apprentissage automatique chez Google, et Staniszewski, ancien stratège de déploiement de Palantir, ElevenLabs a été lancé en version bêta il y a environ un an. Staniszewski dit que lui et Dabkowski, qui ont grandi en Pologne, ont été inspirés pour créer des outils de clonage de voix par des films américains mal doublés. L’IA pourrait faire mieux, pensaient-ils.
Aujourd’hui, ElevenLabs est peut-être mieux connu pour son application de génération vocale basée sur un navigateur, capable de créer des voix réalistes avec des boutons réglables pour l’intonation, l’émotion, la cadence et d’autres caractéristiques vocales clés. Gratuitement, les utilisateurs peuvent saisir du texte et obtenir un enregistrement de ce texte lu à haute voix par l’une des nombreuses voix par défaut. Les clients payants peuvent télécharger des échantillons de voix pour créer de nouveaux styles à l’aide du clonage vocal d’ElevenLabs.
De plus en plus, ElevenLabs investit dans des versions de sa technologie de génération de parole visant à créer des livres audio et à doubler des films et des émissions de télévision, ainsi qu’à générer des voix de personnages pour des jeux et des activations marketing.
L’année dernière, la société a publié un outil « parole à parole » qui tente de préserver la voix, la prosodie et l’intonation d’un locuteur tout en supprimant automatiquement le bruit de fond et, dans le cas des films et des émissions de télévision, traduit et synchronise la parole avec le matériel source. La feuille de route pour les semaines à venir comprend un nouveau flux de travail en studio de doublage avec des outils pour générer et éditer des transcriptions et des traductions et une application mobile par abonnement qui raconte les pages Web et les textes à l’aide des voix d’ElevenLabs.
Les innovations d’ElevenLabs ont conquis les startups clientes de Paradox Interactive, le développeur de jeux dont les projets récents incluent Cities : Skylines 2 et Stellaris, et The Washington Post, entre autres sociétés d’édition, de médias et de divertissement. Staniszewski affirme que les utilisateurs d’ElevenLab ont généré l’équivalent de plus de 100 ans d’audio et que la plateforme est utilisée par les employés de 41 % des entreprises Fortune 500.
Mais la publicité n’a pas été totalement positive.
Le tristement célèbre forum de discussion 4chan, connu pour son contenu conspirateur, a utilisé les outils d’ElevenLabs pour partager des messages haineux imitant des célébrités comme l’actrice Emma Watson. James Vincent de The Verge a pu utiliser ElevenLabs pour cloner des voix de manière malveillante en quelques secondes, générant des échantillons contenant tout, des menaces de violence aux remarques racistes et transphobes. Et chez Vox, le journaliste Joseph Cox a documenté la création d’un clone suffisamment convaincant pour tromper le système d’authentification d’une banque.
En réponse, ElevenLabs a tenté d’éliminer les utilisateurs qui violaient à plusieurs reprises ses conditions de service, qui interdisent les abus, et a déployé un outil pour détecter les discours créés par sa plateforme. Cette année, ElevenLabs prévoit d’améliorer l’outil de détection pour signaler l’audio provenant d’autres modèles d’IA générant de la voix et de s’associer à des « acteurs de distribution » anonymes pour rendre l’outil disponible sur des plates-formes tierces, a déclaré Staniszewski.
ElevenLabs a également été critiquée par des acteurs de la voix qui affirment que l’entreprise utilise des échantillons de leurs voix sans leur consentement – des échantillons qui pourraient être exploités pour promouvoir du contenu qu’ils n’approuvent pas ou pour diffuser des informations erronées et désintéressées. Dans un récent article de Vice, les victimes racontent comment ElevenLabs a été utilisé dans des campagnes de harcèlement à leur encontre, par exemple pour partager les informations privées d’un acteur – son adresse personnelle – en utilisant une voix clonée.
Ensuite, il y a l’éléphant dans la pièce : les plateformes de menace existentielle comme ElevenLabs représentent pour l’industrie du doublage.
Carte mère écrit sur la façon dont les acteurs de la voix sont de plus en plus invités à renoncer aux droits sur leur voix afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer – parfois sans compensation correspondante. La crainte est que le travail vocal – en particulier le travail d’entrée de gamme bon marché – soit finalement remplacé par le chant généré par l’IA, et que les acteurs n’aient aucun recours.
Certaines plateformes tentent de trouver un équilibre. Plus tôt ce mois-ci, Replica Studios, un concurrent d’ElevenLabs, a signé un accord avec SAG-AFTRA pour créer et concéder sous licence des répliques numériques des voix des membres du syndicat des artistes médiatiques. Dans un communiqué de presse, les organisations ont déclaré que l’accord établissait des conditions générales « justes » et « éthiques » pour garantir le consentement de l’artiste interprète – et des conditions de négociation pour l’utilisation de doubles voix numériques dans les nouvelles œuvres.
Même cela n’a pas plu à certains acteurs de la voix, y compris les propres membres de la SAG-AFTRA.
La solution d’ElevenLabs est une place de marché pour les voix. Actuellement en version alpha et devant devenir plus largement disponible dans les prochaines semaines, la place de marché permet aux utilisateurs de créer une voix, de la vérifier et de la partager. Lorsque d’autres utilisent une voix, les créateurs originaux reçoivent une compensation, explique Staniszewski.
« Les utilisateurs gardent toujours le contrôle sur la disponibilité de leur voix et sur les conditions de rémunération », a-t-il ajouté. « Le marché est conçu comme une étape vers l’harmonisation des progrès de l’IA avec les pratiques établies du secteur, tout en apportant un ensemble diversifié de voix à la plateforme d’ElevenLabs. »
Les acteurs de la voix peuvent cependant contester le fait qu’ElevenLabs ne paie pas en espèces, du moins pas pour le moment. La configuration actuelle permet aux créateurs de recevoir des crédits pour les services premium d’ElevenLabs (ce que certains trouvent ironique, je parierais).
Peut-être que cela changera à l’avenir alors qu’ElevenLabs – qui fait désormais partie des startups de voix synthétique les mieux financées – tentera de repousser la concurrence parvenue comme Papercup, Deepdub, ElevenLabs, Acapela, Respeecher et Voice.ai ainsi que les géants de la technologie historiques tels que comme Amazon, Microsoft et Google. Quoi qu’il en soit, ElevenLabs, qui prévoit de porter ses effectifs de 40 à 100 personnes d’ici la fin de l’année, entend bien rester – et faire des vagues – sur le marché en pleine croissance de la voix synthétique.