Xavier ‘X’ Jernigan, la voix du DJ de Spotify, explique ce que c’est que de devenir IA

En mars, Spotify a lancé sa première fonctionnalité alimentée par l’IA avec le lancement de son AI DJ – un guide audio intelligent avec une voix réaliste convaincante. Il s’avère que ce personnage d’IA était basé sur une personne réelle – le responsable des partenariats culturels de Spotify, Xavier « X » Jernigan, qui a eu l’honneur de devenir le premier modèle vocal pour la fonctionnalité d’IA.

TechCrunch s’est entretenu avec Jernigan pour en savoir plus sur le processus de formation de l’IA et sur les futurs plans de Spotify pour ses efforts de DJ IA.

Le nouveau AI DJ personnalise l’expérience d’écoute de la musique pour les auditeurs, en organisant une sélection de musique en fonction de leurs intérêts. Il a également commenté chaque chanson – un peu comme un véritable animateur de radio.

En plus du rôle principal de Jernigan chez Spotify, il est également l’hôte de divers podcasts Spotify, notamment « The Window », « Showstopper » ainsi que le podcast désormais disparu « The Get Up ». Il a donc l’habitude de faire entendre sa voix par des millions d’auditeurs. Pourtant, avoir sa voix commémorée en tant qu’IA est une expérience unique.

Spotify a choisi Jernigan pour être le premier modèle de voix car sa « voix et sa personnalité résonnaient déjà avec beaucoup de nos auditeurs », a déclaré Jernigan à TechCrunch. « [The company was] assez confiant que je résonnerais de cette façon aussi.

L’émission matinale de Spotify, « The Get Up », a attiré près de 6 millions d’auditeurs et figurait parmi les 10 meilleurs podcasts sur Spotify avant de se terminer brusquement en 2022, démontrant l’attrait de Jernigan.

Pourtant, être le modèle vocal du DJ était difficile à comprendre au début, a admis l’animateur du podcast.

« On m’a proposé d’être ce modèle de voix pour DJ et j’ai été époustouflé quand cela m’a été expliqué », nous a dit Jernigan. « Imaginez que si vous entendez cela pour la première fois, vous n’avez rien à regarder et je me dis simplement, ‘Attendez, quoi? Ça va être moi mais ce n’est pas moi, et c’est du texte et de la voix, mais ça sonnera comme moi, et c’est de l’IA ? »

« Pour moi, c’était une nouvelle expérience de travailler avec l’IA de cette manière. J’ai juste été époustouflé », a-t-il ajouté.

Spotify affirme que son AI DJ a été conçu à l’aide des technologies Sonantic et OpenAI.

Sonantic est une startup d’intelligence artificielle que Spotify a acquise l’année dernière. La technologie de l’entreprise était responsable de la création de voix réalistes basées sur l’IA, y compris celle utilisée pour la voix de Val Kilmer dans « Top Gun : Maverick ».

Avant l’acquisition, Spotify a passé quelques années à rechercher une technologie alimentée par l’IA et a travaillé sur la fonction DJ « dans certaines itérations », a noté Jernigan. Il a refusé de dire exactement combien de temps le processus a pris, mais a déclaré que l’intégration de la technologie Sonantic « l’a vraiment fait passer à la vitesse supérieure ».

Jernigan a expliqué le processus de formation de l’IA, qui impliquait d’entrer dans un studio, de lire un script et de parler à différentes cadences et inflexions pour transmettre différentes émotions. Il a donné à l’IA certains mots que lui seul utilise pour la rendre aussi authentique que possible.

« Nous utilisons des mots que je dis… Je ne dis pas ‘airs’ pour les chansons. Ce n’est tout simplement pas comme ça que je parle », a-t-il déclaré. « Je dis, ‘hits’ ou ‘bangers.’ Donc, vous entendrez DJ dire ce genre de mots », a poursuivi Jernigan. « Nous avons même fait tout un processus du genre, comment puis-je dire » hé « , comment dois-je dire » bonjour « . Je transportais un cahier et je notais simplement ces différentes phrases que je disais.

Il a ajouté que l’équipe Spotify s’est assurée de garder ses pauses et ses respirations naturelles afin que la voix de l’IA sonne vraiment comme un être humain.

Même la mère de Jernigan a approuvé les résultats.

« [DJ] passé le test de maman. Je l’ai joué pour elle avant sa sortie, je lui ai expliqué et j’essaie de lui faire comprendre », a-t-il déclaré. « Elle a écouté tous mes podcasts, donc elle a l’habitude d’entendre ma voix enregistrée et jouée auparavant et elle était comme » ça sonne exactement comme toi « . Ma mère a dit que ça me ressemblait, alors je savais que c’était parfait.

Bien que des voix AI réalistes existent déjà, nous dirions que le DJ de Spotify est le plus calme et le plus froid par rapport aux autres que nous avons entendus. Bien que la technologie Duplex de Google puisse sembler authentique, ce n’est pas nécessairement une voix agréable à écouter lorsque vous essayez de faire vibrer votre playlist d’été.

«Pour moi, en faisant la performance du point de vue du doublage, mon objectif était de me connecter avec les gens, de converser avec les gens et de penser à une personne. Alors, quand j’entraînais l’IA, j’ai juste imaginé une personne quand j’étais en studio, en train de leur parler et d’être leur ami », a-t-il ajouté.

En plus de rendre la voix de l’IA conviviale pour les auditeurs, la conception du DJ lui-même a également été conçue pour se sentir accessible.

Le cercle vert animé que les utilisateurs voient lorsqu’ils écoutent le DJ est un clin d’œil au logo Spotify et bouge comme une bouche lorsque l’IA parle.

« En ce qui concerne la conception, nous avons pensé à l’ensemble de l’expérience – comment cela fonctionne, comment ça sonne, à quoi ça ressemble et comment le personnaliser pour chaque utilisateur », a déclaré Emily Galloway, responsable de la conception de produits pour la personnalisation chez Spotify. Tech Crunch. « Au début, pour le côté visuel, nous avons exploré certaines options qui semblaient plus techniques (imaginez des choses comme les ondes sonores). Pourtant, cela ne nous semblait pas juste puisque nous voulions humaniser l’IA… »

« Nous voulions lui donner un aspect et une sensation uniques. En fait, il était si unique qu’il a obtenu un brevet de conception », a ajouté Galloway.

Jernigan a contribué au DJ d’autres manières que l’enregistrement de sa voix.

Afin que l’IA puisse fournir des commentaires d’experts sur la musique, Spotify a mis en place une salle d’écriture composée de conservateurs, d’experts de la culture et d’experts de la musique.

Jernigan a une vaste expérience en musique, il a donc également participé à la salle des écrivains. Il a auparavant travaillé pour des artistes de renom comme Diddy, Amy Winehouse et 2 Chainz, entre autres.

Et bien que Jernigan soit le premier modèle de voix pour DJ, il est possible que les auditeurs entendent plus de voix à l’avenir.

TechCrunch a demandé à Jernigan si l’entreprise avait l’intention d’embaucher des modèles vocaux qui parlent d’autres langues.

« Restez à l’écoute », a-t-il laissé entendre.

L’AI DJ n’est actuellement disponible qu’en anglais pour les abonnés Premium aux États-Unis et au Canada. En février, la fonction DJ est toujours en test bêta.

« Nous avons tout un tas de nouvelles fonctionnalités vraiment intéressantes à tous les niveaux », a déclaré Jernigan. « Nous avons des trucs vraiment dopants qui sortent. »

Source-146