Si vous avez déjà regardé une émission Star Wars sur Disney Plus, il y a de fortes chances que vous connaissiez le travail de la startup technologique Respeecher, que vous le réalisiez ou non. La plate-forme de clonage de voix alimentée par l’IA de la société ukrainienne a fourni les performances vocales vieillies de Mark Hamill dans les deux Le Mandalorien et Le livre de Boba Fettainsi que pour un personnage encore non identifié dans Obi Wan Kenobi. Lucasfilm a demandé à Respeecher de garder le nom de ce personnage secret pour le moment – et avec autant de vétérans de la franchise qui reviennent pour la série, les candidats potentiels ne manquent certainement pas.
Polygon s’est entretenu avec le PDG de Respeecher, Alex Serdiuk, pour mieux comprendre un processus qui, pour de nombreux fans, frise sans aucun doute le sacrilège : utiliser la technologie pour créer des performances entièrement sur mesure pour l’un (ou peut-être même deux) des personnages les plus emblématiques de la saga Star Wars. Dès le départ, Serdiuk met l’accent sur l’élément humain derrière la plate-forme elle-même. « Grâce à notre technologie et à nos services, nous pouvons créer une copie numérique d’une voix particulière et permettre à une autre personne de parler avec cette voix », explique-t-il. « Et donc nous permettons [studios] pour redimensionner les voix, les vieillir et même ressusciter les voix pour certains projets.
Donc, loin de l’image mentale évoquée par des termes comme « intelligence artificielle » et « clonage de la voix » – celle d’un ingénieur du son exécutant des lignes de dialogue à travers un algorithme informatique qui crache ensuite des fichiers audio. Le travail de Respeecher sur Star Wars est étonnamment axé sur les performances. Alors que Dark Vador lui-même est peut-être plus une machine qu’un homme, si la startup ukrainienne fournit sa voix (et rappelez-vous, nous avons dit « si »), l’essence de la voix du personnage est toujours en chair et en os.
« Il n’y a pas encore d’IA, et je ne crois pas qu’elle existerait, cela nous permettrait de l’utiliser simplement sur une base clé en main pour créer la performance que nous souhaitons créer. […] Nous avons besoin d’une autre voix humaine [to provide] parce que cette voix humaine donne toutes les inflexions, l’accent, le style de discours et le rythme que l’IA n’est pas douée pour créer », insiste Serdiuk. Il ajoute : « Notre système nécessite une performance à l’entrée, donc elle peut être faite par la même personne qui se fait vieillir par exemple, ou quelqu’un d’autre. […] Il faut toute la performance, tout le jeu d’acteur de ce que nous appelons une «voix source», puis nous effectuons la conversion.
De plus, le pipeline de Respeecher permet à des acteurs comme Hamill d’enregistrer différentes prises comme ils le feraient sur un plateau réel, que les experts de la société peuvent ensuite ajuster à leur fin en fonction des notes de showrunners comme Jon Favreau ou de réalisateurs comme Deborah Chow.
« Avec des projets de studio et des films, ils pourraient enregistrer des milliers de prises pour chaque ligne, et cela signifie que nous aurions besoin de convertir toutes ces [into the younger voice], renvoyez-les et envoyez peut-être différentes versions, car nous avions l’habitude d’entraîner différents modèles avec différentes configurations », dit-il. « Et parfois, nous devons également répondre aux attentes créatives afin qu’ils puissent simplement nous diriger, Pouvez-vous essayer de faire [a line reading] sonner un peu plus comme ça? et nous travaillerions pour que cela ressemble un peu plus à ce qu’ils demandent.
Ainsi, le but ultime est-il de recréer une représentation traditionnelle par des moyens non traditionnels — dans le cas de Le Mandalorien ou Le livre de Boba Fettcomme si les lignes de Hamill étaient en quelque sorte transmises directement de l’ensemble des années 1983 Star Wars : Le Retour du Jedi? « Le but est de donner l’impression qu’il a été enregistré hier en studio par la voix cible elle-même », confirme Serdiuk.
Bien sûr, il y a toujours le risque avec la technologie de clonage de voix comme celle de Respeecher que la performance synthétisée qu’elle produit semble artificielle, même si les téléspectateurs ne savent pas exactement pourquoi. Serdiuk admet même que la voix vieillie de Hamill sonne « bien, bien mieux » dans Le livre de Boba Fett qu’il ne l’a fait dans Le Mandalorien, grâce à des améliorations mineures mais significatives dans la façon dont le modèle d’IA de Respeecher a été « formé » pour émuler la voix de l’acteur. Dans le même temps, le PDG s’empresse également de souligner que si de nombreux fans se sont plaints des effets visuels utilisés pour représenter Luke Skywalker, âgé de 20 ans, dans Le Mandalorien finale, peu ont réalisé que la voix du maître Jedi était également synthétique jusqu’à ce que Lucasfilm renverse les haricots dans un Galerie Disney « making of » spécial quelques mois plus tard.
Serdiuk mentionne que la voix vieillissante convaincante de Hamill dans Le Mandalorien et Le livre de Boba Fett étaient d’autant plus impressionnants compte tenu de la qualité des actifs hérités que Respeecher a reçus de Lucasfilm. « Ce [data] était assez vieux, donc nous avions quelque chose à partir de bandes, nous avons un vieil enregistrement ADR, quelque chose d’un jeu vidéo », se souvient Serdiuk. « Et le fait est que vous devez former ces données dans votre modèle pour lui permettre de produire la qualité de sortie qui s’intégrerait dans une production moderne. Dans de nombreux projets qui impliquent de vieillir ou de ressusciter [performer’s voices]cela pourrait être le principal défi car le manque de données et la qualité des données introduisent des obstacles supplémentaires en termes de qualité du son.
Le PDG de Respeecher soutient que surmonter ces obstacles liés aux données en valait la peine, maintenant que des poids lourds de l’industrie comme Lucasfilm ont adopté le travail qu’ils font. « [We] commencé avec l’idée de construire un discours synthétique [platform] au niveau où ça passerait par les ingénieurs du son et les studios hollywoodiens et atterrirait dans les grosses productions. Donc, quand ils acceptent notre son, quand ils disent quelque chose de bien sur le son que nous avons pu produire — et c’est un défi technique très compliqué et lourd, faire de la parole synthétisée à un niveau où il serait impossible de la distinguer d’un véritable enregistrement — en de tels cas, cela nous encourage vraiment et nous aide à grandir », dit-il.
J’ai dit à Serdiuk que l’acceptation croissante de la technologie de clonage de la voix pourrait signifier que les studios ne font plus non plus appel à des sonorités talentueuses pour remplacer les acteurs décédés. Par exemple, ne serait-ce pas Rogue One: Une histoire de Star Wars – dans lequel Guy Henry imitait la voix de feu Peter Cushing en tant que Grand Moff Tarkin – serait le genre de projet qui atterrirait automatiquement sur le bureau de Respeecher maintenant? Pas nécessairement, selon Serdiuk, qui considère la technologie de clonage de la voix de Respeecher comme l’une des nombreuses options viables à la disposition des cinéastes
« Il y a toujours des visions différentes de la façon dont les choses devraient se passer dans l’industrie et les fans ont des idées différentes sur la façon dont elles devraient se passer. je ne dirais pas ça [Respeecher] convient très bien pour diriger ou juger [which approach is best], » il dit. Serdiuk a également précisé que si jamais Lucasfilm faisait appel à Respeecher pour recréer la voix d’un acteur décédé, la société ne le ferait qu’avec l’approbation de la succession de cet acteur. Et tandis que la réponse de Serdiuk mettra les acteurs de la voix à l’aise pour le moment, le fait que Lucasfilm soit un client régulier de Respeecher suggère que la startup a fait de sérieux progrès dans la technologie de clonage de la voix.
En effet, Serdiuk a déjà une vision de l’avenir de Respeecher qui va au-delà du vieillissement des voix des acteurs, bien qu’il reste catégorique sur le fait que ce que la société a prévu élargira les horizons créatifs des cinéastes, et non les rétrécira. Il parle de démocratiser la technologie afin que les petits studios de cinéma et de télévision et les développeurs de jeux vidéo puissent l’utiliser pour étirer davantage leurs budgets. Il parle également avec enthousiasme des applications de soins de santé révolutionnaires de la plate-forme de Respeecher – citant même un cas où l’entreprise collabore avec un doubleur qui a perdu sa voix pour lui permettre de se produire à nouveau.
Pourtant, regarder vers l’avenir ne signifie pas que Serdiuk a perdu de vue ce que cela signifie pour Respeecher de faire partie d’un certain opéra spatial qui se déroule il y a longtemps dans une galaxie très, très lointaine. « C’est quelque chose de spécial. Je veux dire, tu fais partie de cette histoire. Nous pouvons dire à juste titre que Star Wars a beaucoup fait avancer Hollywood, n’est-ce pas ? Ils perturbent l’industrie, d’un point de vue technique, depuis le tout début, et la façon dont ils font leurs films est exceptionnelle. C’est donc un grand honneur de pouvoir travailler avec ces gens et d’apprendre d’eux.