ElevenLabs, la plate-forme virale alimentée par l’IA pour créer des voix synthétiques, a levé un nouveau tour de table.
Aujourd’hui, la startup a annoncé la clôture d’un cycle de série A de 19 millions de dollars co-dirigé par les entrepreneurs Nat Friedman et Daniel Gross aux côtés d’Andreessen Horowitz. Parmi les autres participants figuraient les poids lourds Creator Ventures, SV Angel, le co-fondateur d’Instagram Mike Krieger, le co-fondateur d’Oculus Brendan Iribe, le co-fondateur de Deepmind et Inflection AI Mustafa Suleyman et le fondateur d’O’Reilly Media Tim O’Reilly.
Une source proche du dossier a déclaré à TechCrunch que la tranche valorisait ElevenLabs à 99 millions de dollars après l’argent – un chiffre respectable, d’autant plus que la startup a été lancée il y a un peu plus d’un an.
« Cet investissement servira à poursuivre la construction ElevenLabde recherche de pointe pour l’IA vocale et de lancer une gamme de produits supplémentaires pour prendre en charge des marchés verticaux spécifiques tels que l’édition, les jeux, le divertissement et les applications conversationnelles », a déclaré le co-fondateur et PDG Mati Staniszewski à TechCrunch par e-mail.
ElevenLabs, qui a fait les gros titres ces derniers mois pour des raisons à la fois bonnes et odieuses, a été fondé par Staniszewski, qui travaillait auparavant chez Palantir, et son ami d’enfance Piotr Dabkowski, un ancien employé de Google. Inspirés par le doublage médiocre des films américains qu’ils ont regardés en grandissant en Pologne, leur pays natal, les deux hommes se sont mis à concevoir une plate-forme qui pourrait faire mieux – en tirant parti de l’IA, bien sûr.
ElevenLabs peut transformer un texte en parole en utilisant des voix synthétiques, des voix clonées ou des voix « artificielles » entièrement nouvelles qui imitent les sons de personnes de différents sexes, âges et ethnies. Les modèles de synthèse vocale IA de la société sont indépendants de la langue, ce qui permet aux entreprises clientes de les affiner et de créer leurs propres modèles vocaux propriétaires.
Coïncidant avec l’augmentation de la série A, ElevenLabs, 15 employés, lance Projects, un flux de travail pour l’édition et la création de contenu parlé long. Avec Projects, les utilisateurs peuvent générer des segments de dialogue et même des livres audio sans avoir à quitter la plateforme.
« Pour les partenaires interentreprises, notre technologie peut être utilisée dans des domaines tels que la création de livres audio évolutifs et multilingues, l’expression de personnages dans les jeux vidéo, l’expression d’articles numériques, l’aide aux malvoyants pour accéder au contenu écrit en ligne et l’alimentation de la radio IA », Staniszewski a dit.
ElevenLabs, qui a été lancé en version bêta fin janvier, a pris de l’ampleur assez rapidement, en raison de la qualité extrêmement élevée de ses voix générées, des temps de génération rapides et de l’offre gratuite généreuse. Mais comme mentionné précédemment, la publicité n’a pas toujours été positive, en particulier une fois que de mauvais acteurs ont commencé à exploiter la plate-forme à leurs propres fins.
4chan, le tristement célèbre babillard électronique connu pour son contenu complotiste, a utilisé l’outil d’ElevenLabs pour partager des messages haineux imitant des célébrités comme l’actrice Emma Watson. Ailleurs, James Vincent de The.Verge a pu exploiter ElevenLabs pour cloner les voix des cibles en quelques secondes – générant des échantillons audio contenant tout, des menaces de violence aux expressions de racisme et de transphobie.
En réponse, ElevenLabs a déclaré qu’il introduirait un ensemble de nouvelles garanties, telles que la limitation du clonage vocal aux comptes payants, l’interdiction des utilisateurs qui violent à plusieurs reprises ses conditions d’utilisation et la fourniture d’un nouvel outil de détection d’IA.
L’outil de détection est lancé aujourd’hui. Appelé AI Speech Classifier et disponible en tant qu’API pour des partenaires « sélectionnés », il est conçu pour détecter si un échantillon audio téléchargé contient du contenu généré par l’IA d’ElevenLabs.
« S’assurer que les plates-formes d’IA génératives peuvent être adoptées en toute sécurité est un défi majeur pour l’ensemble du secteur généré par l’IA, y compris les plates-formes de texte, d’image et de voix », a déclaré Staniszewski. « Nous devons veiller à ce que les gens soient informés de la nature du paysage des médias génératifs et sachent qu’un tel contenu existe – nous nous engageons à créer des outils pour aider les gens à détecter le contenu généré par l’IA, dans l’intérêt de la transparence. »
Un outil de détection volontaire – en supposant qu’il fonctionne même comme annoncé – ne dissuadera pas nécessairement les mauvais comportements. Mais il y a un autre éléphant dans la pièce qu’ElevenLabs n’a pas abordé : la menace existentielle que sa technologie pose aux acteurs de la voix.
Motherboard écrit sur la façon dont les acteurs de la voix sont de plus en plus invités à signer des droits sur leurs voix afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer – parfois sans compensation supplémentaire. Entre-temps, des e-mails internes vus par le New York Times indiquent qu’Activision Blizzard, l’un des plus grands éditeurs de jeux au monde, travaille sur des outils de « clonage de voix » assisté par l’IA.
Il semblerait qu’ElevenLabs considère cela comme la progression naturelle des choses, vantant son travail avec des éditeurs comme Storytel et des plateformes médiatiques comme TheSoul Publishing et MNTN pour les livres audio, les jeux vidéo et le contenu radio. (Storytel et TheSoul Publishing sont des investisseurs stratégiques.) La société affirme qu’elle compte plus d’un million d’utilisateurs enregistrés dans les espaces de création, de divertissement et d’édition qui ont créé dix ans de contenu audio.
ElevenLabs prévoit d’étendre à terme ses modèles d’IA au doublage de voix, en suivant les traces de startups comme Papercup et Deepdub et en construisant ce qu’il appelle « une fondation pour pouvoir transférer des émotions et des intonations d’une langue à une autre ».
« Cela permettra à n’importe quelle vidéo d’être doublée dans n’importe quelle langue de manière attrayante, efficace et évolutive, tout en conservant la voix de l’orateur d’origine », écrit ElevenLabs dans un communiqué de presse. « [We are] effectue déjà un certain nombre de tests avec des partenaires de l’industrie pour permettre le doublage IA à grande échelle.
Avec 21 millions de dollars en banque (dont 2 millions de dollars provenant d’un tour de pré-amorçage en janvier), ElevenLabs – que les conséquences soient maudites – se concentre sur le laser pour repousser ses rivaux dans l’espace vocal génératif en plein essor. Ils comprennent des opérateurs historiques comme Amazon, Google et Microsoft ainsi que des startups comme Murf, Tavus, Resemble AI, Respeecher, Play.ht et Lovo.