Des services comme Midjourney et ChatGPT ont repoussé les limites de la façon dont l’IA peut créer des images et du texte à partir d’invites de texte de base. Maintenant, l’audio semble être la prochaine frontière inévitable. La génération de musique basée sur des invites de mots, les tuteurs d’IA pour l’apprentissage des langues et les simulateurs de voix ont tous connu des développements ces derniers mois. Voice.ai espère faire partie de cette conversation (heh) avec une technologie qui permet aux utilisateurs de changer (et de déguiser) leur voix en temps réel, et maintenant il a levé son premier financement extérieur dans la foulée d’une croissance précoce.
Avec plus de 480 000 utilisateurs et une bibliothèque de plus de 50 000 filtres vocaux, Voice.ai a collecté 6 millions de dollars, un financement qu’il prévoit d’utiliser pour amener sa technologie de changement de voix dans de nouveaux endroits.
Mucker Capital et M13 sont en tête du tour. Jusqu’à présent, Voice.ai s’est développé grâce au bouche à oreille – la startup a une chaîne Discord avec plus de 120 000 personnes – grâce à un autofinancement de 3 millions de dollars.
Actuellement, les outils de l’entreprise – disponibles sous forme d’applications pour Mac, PC, Android et iOS – sont adoptés par les joueurs, les créateurs de contenu, les Vtubers et d’autres sur TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, parmi nous , Skype, WhatsApp et d’autres plateformes. L’interface Voice.ai leur permet de créer une nouvelle voix, ou de choisir parmi quelque 50 000 voix pré-créées différentes (créées et partagées par des utilisateurs comme eux-mêmes), qui peuvent être utilisées telles quelles ou modifiées, pour être utilisées en direct sur des plateformes prises en charge, ou pour les enregistrements.
Le plan est d’utiliser le financement pour embaucher plus de talents techniques et pour créer de nouveaux SDK et API pour travailler avec d’autres plateformes comme Meta, Unreal et Unity ; apporter un support multilingue ; et ajoutez de nouvelles applications comme le chant où la voix est au centre de la scène.
La startup ne le distingue pas, mais il sera intéressant de voir si elle utilise également une partie du financement pour augmenter la capacité du serveur.
Ce n’est pas un mince fardeau. Pour l’anecdote, nous avons entendu dire que la douleur du GPU est l’un des plus grands facteurs de déclenchement dans la façon dont de nombreuses applications d’IA sont capables d’évoluer en ce moment. (C’est en partie la raison pour laquelle vous voyez de grosses transactions conclues qui incluent des stratégies fournissant une capacité de traitement et de serveur.)
Pour Voice.ai en particulier, votre voix est traitée localement et acheminée partout où elle sera utilisée via ce que le fondateur et PDG Heath Ahrens m’a décrit comme un « câble audio virtuel ». Mais lorsque vous regardez les critiques de ses applications, une plainte commune est que lorsque vous vous inscrivez, vous êtes mis sur une liste d’attente parce que « la demande écrasante a nos serveurs à pleine capacité » avec la promesse que vous serez informé lorsque le service augmentera. capacité.
Il existe aujourd’hui des dizaines de services de parole à voix et de voix à parole sur le marché, et déjà beaucoup d’activité parmi eux : l’année dernière, Spotify a acquis Sonantic et Snap a acheté un assistant vocal IA encore plus tôt que cela ; une autre startup, Sanas, travaille à changer votre accent et il y a les simulateurs de voix Murf et Acapela, parmi tant d’autres. Voice.ai se compte dans la même catégorie générale que Respeecher et ElevenLabs, deux startups d’IA voix à voix, permettant aux utilisateurs d’appliquer des masques pour modifier ou transformer complètement leur voix – dans certains cas, créant des voix complètement synthétiques à la place de la vraie chose.
Respeecher, fondée et basée en Ukraine, s’est fait un nom en aidant à construire une nouvelle voix de Dark Vador pour les nouveaux épisodes de Star Wars, basée sur la façon dont James Earl Jones sonnait il y a 45 ans lorsqu’il a créé le rôle. (Conformément à un personnage déterminé à détruire des mondes, la voix de Dark a été transmise au client hollywoodien depuis ses bureaux en Ukraine alors que la Russie entrait dans le pays.)
ElevenLabs – célèbre (ou tristement célèbre selon le cas) – a construit une plate-forme qui est effroyablement bonne pour le clonage des voix, et plus tôt ce mois-ci, il a récupéré son dernier cycle de financement de 19 millions de dollars auprès d’un groupe d’investisseurs de renom.
Voice.ai essaie, dans ce mélange, de se positionner comme l’application de modification de voix AI pour Everyman.
« Il y a beaucoup d’entreprises qui essaient de fournir une saveur différente de la technologie vocale aux entreprises », a déclaré Ahrens à TechCrunch dans un e-mail (ironiquement, il n’a pas été possible d’organiser une interview en direct avec lui). Ahrens a une certaine expérience dans la construction de technologies d’IA B2B : ses deux sociétés précédentes – iSpeech pour la synthèse vocale et Haystack pour la reconnaissance faciale – sont construites autour d’offres d’API.
« Ce qui distingue Voice.ai, c’est que nous nous efforçons de mettre la technologie qui était auparavant réservée aux entreprises directement entre les mains des consommateurs de manière abordable. » De nombreux utilisateurs, a-t-il noté, « nous viennent des changeurs de voix DSP classiques et des modulateurs de voix qu’ils utilisaient dans le passé et qui sont toujours populaires parmi de nombreux joueurs et streamers ».
« Abordable » se décline en deux niveaux, la plupart des utilisateurs bénéficiant désormais d’un service gratuit qui les oblige à s’inscrire pour fournir une puissance de calcul pour former les modèles de Voice.ai, son service étant basé sur son propre ensemble de données privées composé de « millions d’utilisateurs uniques ». .” Aucun prix n’est fourni sur le site : nous demandons ces détails.
« Nous croyons en l’accessibilité de la technologie et prévoyons de travailler avec la communauté open source pour démocratiser la technologie Voice AI », a ajouté Ahrens.
Voice.ai affirme également qu’il adopte une approche fondamentalement différente du défi de changer une voix, en exploitant une partie de l’éthique qui s’est construite autour de l’utilisation des avatars par les Vtubers, les joueurs et d’autres en ligne.
« La plupart des entreprises d’IA vocale qui arrivent dans l’espace essaient de créer des solutions de synthèse vocale évolutives axées sur l’entreprise ou des services voix-voix coûteux pour les studios de production », a déclaré Ahrens. «Nous partons du spectre opposé et essayons d’offrir de la valeur aux personnes qui cherchent à élargir leur son en ligne. La proposition de valeur fondamentale de notre IA de synthèse vocale n’est pas qu’elle peut reproduire parfaitement une personne donnée. C’est qu’il conserve les éléments essentiels du discours d’un utilisateur : son émotion, son rythme et son emphase tout en remplaçant le son de la voix, afin de créer un nouveau résultat final complètement unique, en temps réel. »
C’est peut-être à cause de la façon dont la démographie des plates-formes interactives comme les jeux est biaisée, mais pour l’instant, l’audience de Voice.ai est de 70% d’hommes contre 30% de femmes avec de nouvelles catégories qui s’ouvrent non seulement autour de qui utilise la technologie, mais pourquoi.
Cela inclut non seulement ceux qui utilisent des avatars et construisent des voix pour les faire correspondre, ou ceux qui recherchent une plus grande protection de la vie privée, mais aussi, a-t-il dit, « les utilisateurs transgenres qui peuvent se représenter avec des voix qui correspondent à leur identité, ainsi que les utilisateurs qui explorent de tout nouveaux sites en ligne personnages pour eux-mêmes.
Il existe déjà une base d’utilisateurs qui exploitent les offres directes aux consommateurs de Voice.ai, mais l’une des raisons pour lesquelles Mucker investit dans la startup est qu’il pense qu’il existe une opportunité de créer un réseau de développeurs utilisant et intégrant sa technologie.
« Voice.ai est sur le point de révolutionner la communauté des développeurs d’intelligence artificielle d’une manière similaire à l’impact d’AdMob sur la communauté des développeurs d’applications mobiles », a déclaré Omar Hamoui, associé de l’investisseur principal Mucker Capital. (Hamoui a précédemment fondé la startup de publicité mobile AdMob, finalement acquise par Google, il a donc une expérience directe dans la création d’outils de développement mobile.) « En offrant des solutions conviviales qui étaient autrefois réservées aux grandes entreprises, Voice.ai vise à démocratiser l’accès pour développeurs du monde entier.
Karl Alomar, l’ancien COO de Digital Ocean, qui a dirigé l’investissement pour M13, a déclaré que les investisseurs joueront un rôle actif dans la prochaine étape de développement. « Chez Digital Ocean, nous avons également constaté l’intérêt de créer une communauté de constructeurs par des constructeurs », a-t-il déclaré. « Nous sommes ravis que les créateurs et les développeurs s’appuient sur la plate-forme Voice.ai. »