Avec l’IA DJ de Spotify, l’entreprise a formé une IA sur la voix d’une personne réelle – celle de son responsable des partenariats culturels et animateur de podcast, Xavier « X » Jernigan. Maintenant, le streamer peut transformer cette même technologie en publicité, semble-t-il. Selon les déclarations du fondateur de The Ringer, Bill Simmons, le service de streaming développe une technologie d’intelligence artificielle qui pourra utiliser la voix d’un hôte de podcast pour créer des annonces lues par l’hôte, sans que l’hôte ait à lire et à enregistrer la copie de l’annonce.
Simmons a fait ces déclarations lors d’un récent épisode du podcast The Bill Simmons, en disant: « Il va y avoir un moyen d’utiliser ma voix pour les publicités. Vous devez évidemment donner votre approbation pour la voix, mais cela vous ouvre, d’un point de vue publicitaire, toutes ces différentes grandes possibilités.
Il a déclaré que ces publicités pourraient ouvrir de nouvelles opportunités aux podcasteurs, car elles pourraient cibler géographiquement les publicités – comme des billets pour un événement local dans la ville de l’auditeur – ou même créer des publicités dans différentes langues, avec la permission de l’hôte.
Ses commentaires ont d’abord été rapportés par Semafor.
The Ringer a été acquis par Spotify en 2020, mais il n’était pas clair si Simmons était autorisé à parler des projets du streamer dans ce domaine, car il a commencé par dire: «Je ne pense pas que Spotify va se fâcher contre moi pour ceci… » avant de partager l’information.
Contacté pour commenter, Spotify ne confirmerait ni ne nierait directement le développement de la fonctionnalité.
« Nous travaillons toujours pour améliorer l’expérience Spotify et tester de nouvelles offres qui profitent aux créateurs, aux annonceurs et aux utilisateurs », a déclaré un porte-parole de Spotify à TechCrunch. « Le paysage de l’IA évolue rapidement et Spotify, qui a une longue histoire d’innovation, explore un large éventail d’applications, y compris notre fonctionnalité AI DJ extrêmement populaire. Il y a eu une augmentation de 500% dans le nombre d’épisodes de podcast quotidiens traitant de l’IA au cours du mois dernier, y compris la conversation entre Derek Thompson et Bill Simmons. La publicité représente une toile intéressante pour l’exploration future, mais nous n’avons rien à annoncer pour le moment.
Le sous-texte de ce commentaire indique que les déclarations de Simmons étaient peut-être quelque peu prématurées.
Cela dit, Spotify a déjà laissé entendre que le DJ AI dans l’application aujourd’hui ne serait pas le seul que les utilisateurs de voix AI rencontreraient à l’avenir. Lorsque Jernigan a récemment été interrogé sur les projets de Spotify de travailler avec d’autres modèles vocaux à l’avenir, il a taquiné: « Restez à l’écoute. »
Le streamer a également investi discrètement dans le développement et la recherche sur l’IA, avec une équipe de quelques centaines de personnes travaillant désormais sur des domaines tels que la personnalisation et l’apprentissage automatique. De plus, l’équipe a utilisé le modèle OpenAI et a étudié les possibilités à travers les grands modèles de langage, la voix générative, et plus encore.
La capacité de Spotify à créer des voix IA s’appuie spécifiquement sur l’IP de l’acquisition de Sonantic par Spotify en 2022 combinée à la technologie OpenAI. Il pourrait choisir d’utiliser sa propre technologie d’IA interne à l’avenir, nous a récemment dit la société.
Pour créer AI DJ, Spotify a fait entrer Jernigan dans un studio pour produire des enregistrements de haute qualité, y compris ceux où il lisait des lignes avec différentes cadences et émotions. Il a gardé ses pauses et ses respirations naturelles dans les enregistrements et était sûr d’utiliser un langage qu’il prononçait déjà – comme des « airs » ou des « bangers » au lieu de simplement des « chansons ». Tout cela est ensuite introduit dans le modèle d’IA, qui crée ensuite la voix de l’IA.
La société a refusé de détailler le processus plus en détail ou de dire combien de temps il a fallu pour transformer les enregistrements de Jernigan en DJ AI. Mais, compte tenu de son intérêt potentiel à transformer ses hôtes de podcast en modèles vocaux IA, il doit développer ici un processus assez efficace – et qui pourrait éventuellement tirer parti des enregistrements existants d’un podcasteur.
Bien que les voix de l’IA ne soient pas nouvelles, la possibilité de les faire sonner comme de vraies personnes est un développement plus moderne. Il y a quelques années, Google a séduit le monde avec une IA à consonance humaine dans Duplex qui pouvait appeler des restaurants pour que vous fassiez des réservations. Mais la technologie a d’abord été critiquée pour son manque de divulgation. Ce mois-ci, Apple a introduit une fonctionnalité d’accessibilité, Personal Voice, qui est capable d’imiter la propre voix de l’utilisateur après avoir formé le modèle pour la première fois en passant 15 minutes à lire des invites choisies au hasard, traitées localement sur leur appareil.