Un podcast d’Embark Studios, créateurs du prochain FPS The Finals, a laissé entendre que le jeu utiliserait des lignes vocales IA dans un avenir prévisible. L’explication, cependant, a laissé certains acteurs de la voix se sentir, au mieux, confus.
Carl Strandberg et Andreas Almström, concepteurs audio de The Finals, ont été interrogés : « qui a fait les voix off ? Elles semblent vraiment authentiques » (spoilers : ce n’est pas une opinion que tout le monde partage). Ils ont répondu : « Nous utilisons l’IA à quelques exceptions près, donc toutes les voix des candidats, comme les aboiements et les commentateurs en voix off, sont de la synthèse vocale de l’IA. » Divers éléments de voix off – grognements, bruits de douleur, saut par-dessus des objets – sont par ailleurs réalisés en interne.
« La raison pour laquelle nous avons choisi cette voie est que la synthèse vocale de l’IA est finalement extrêmement puissante. Elle nous amène assez loin en termes de qualité, et nous permet d’être extrêmement réactifs aux nouvelles idées… si un concepteur de jeux propose un nouvelle idée de mode de jeu, nous pouvons avoir une voix off représentant cela en seulement quelques heures, au lieu de plusieurs mois. »
Cette explication, cependant, ne correspond pas vraiment à l’expérience des doubleurs qui travaillent réellement dans les jeux. L’un de ces acteurs est Gianni Matragrano, que vous pourriez reconnaître comme Gabriel d’Ultrakill, bien qu’il ait travaillé pour une grande variété de jeux, notamment Genshin Impact, Gloomwood et Evil West.
Matragrano a écrit sur un Fil Twitter: « Nous organisons constamment des séances de commande urgentes pendant un jour ou deux… Lorsque vous avez besoin de plus, vous pouvez réserver une autre séance. En fait, nous rendons les choses très simples. » Il continue en révélant qu’il avait des doutes en jouant à la bêta, mais qu’il attendait une confirmation : « J’avais des soupçons mais je ne voulais rien dire au cas où j’aurais tort, ou peut-être que c’était au moins juste un espace réservé. Mais maintenant, lors d’une grande bêta ouverte avec [150,000] joueurs simultanés, ce n’est définitivement que leur vision. »
Donc je suppose que la finale se déroulera avec des voix IA… ? pic.twitter.com/PIAbR43ZrT28 octobre 2023
La vidéo ci-dessus est un exemple posté par Matragrano lui-même, et… ouais, ce n’est pas si génial. J’entends trop de choses étranges pour adhérer à cette technologie « extrêmement puissante » dont se vantaient Strandberg et Almström. Ils ont ajouté la mise en garde suivante : « Si cela semble un peu bizarre, cela se marie quand même assez bien avec le fantasme du jeu télévisé virtuel, esthétiquement. » C’est à vous de décider si ces lignes vocales vous immergent.
Zane Schacht, un autre doubleur, a écrit: « Pourquoi les gens de la voix de l’IA agissent-ils comme si l’embauche d’acteurs de voix était une sorte de rituel obscur… J’ai éliminé des jeux entiers d’une valeur audio en une session de deux heures. Ce n’est pas profond. »
Entre-temps Pax Helgesen, qui est à la fois concepteur sonore senior et lui-même doubleur, a commenté : « J’aimerais une fois de plus encourager les développeurs à reconsidérer l’utilisation de la voix dans leurs jeux comme simplement un « atout » dans le pipeline de développement agile. Il poursuit en disant que, oui, l’IA peut jouer un rôle important dans le développement d’un jeu, mais « un acteur qui pourrait utiliser les outils de son métier et de ses expériences pour collaborer et créer quelque chose de plus grand que ce que les développeurs avaient imaginé. »
Je suis enclin à être d’accord ici. D’une certaine manière, le jeu d’acteur et le sound design sont deux disciplines très différentes. C’est similaire à la façon dont les « artistes IA » sont abattus sur la place publique lorsqu’ils partagent les résultats de leurs invites, puisque ceux qui ont un meilleur œil peuvent voir le manque de composition et d’intention à un kilomètre et demi.
Vous pouvez demander à un algorithme de produire quelque chose, c’est vrai, mais l’art implique des dizaines de choix délibérés qu’une machine ne peut pas, pour le moment, reproduire. Le jeu des acteurs est similaire. Une partie de moi se demande si Strandberg et Almström n’en savent tout simplement pas assez sur VA pour comprendre à quel point leurs lignes générées par ElevenLabs choquent les joueurs qui ne se soucient pas des délais de développement.
Ce qui rend cela d’autant plus bizarre, c’est qu’il existe déjà des utilisations intéressantes et réfléchies de cette technologie dans les jeux. Il y a peu de temps, il a été révélé que le doublage polonais de Cyberpunk 2077 utilisait l’IA pour fournir de nouvelles lignes pour le pack d’extension du jeu, Phantom Liberty, après la mort du doubleur d’un certain personnage. CD Projekt a fait preuve de diligence raisonnable. Il a embauché un doubleur pour fournir les nouvelles lignes (à modifier avec Respecer), il a obtenu le consentement des membres survivants de la famille de l’acteur, et il l’a fait pour préserver la performance originale, sans IA.
En ce qui concerne The Finals, j’ai du mal à voir l’intention créative. Bien sûr, l’IA pourrait être en mesure de fournir des délais d’exécution plus rapides, même s’ils ne sont pas aussi lents que les développeurs le prétendent, mais le résultat est dépourvu de personnalité. Un shoot-’em-up multijoueur n’a pas besoin de fournir un récit profond, bien sûr, mais vous écoutez ces aboiements pendant des heures. Je pense qu’une livraison guinchée et maladroite deviendra rapidement ennuyeuse.
J’ai contacté Embark Studios pour obtenir des commentaires et on m’a dit par e-mail que le studio utilisait un mélange de « voix enregistrée et audio générée via TTS ». [text to speech] outils dans nos jeux, en fonction du contexte », citant les conversations entre les personnages comme étant celles où il est important d’amener de vraies personnes à se parler. « TTS nous permet d’avoir des [voice acting] là où nous ne le ferions pas autrement, par exemple en raison de la rapidité de mise en œuvre. »
« Dans les cas où nous utilisons TTS dans The Finals, il est toujours basé sur de vraies voix. » Un point à souligner ici est que la plupart Les programmes vocaux d’IA sont basés sur de vraies voix, de la même manière que l’art de l’IA est basé sur de l’art réel : c’est ainsi que fonctionne la technologie. « Dans la bêta ouverte, il est basé sur un mélange de doubleurs professionnels et de voix temporaires des employés d’Embark. Créer des jeux sans acteurs n’est pas un objectif final pour Embark et la technologie TTS a introduit de nouvelles façons de travailler ensemble. »
Les studios Embark n’ont pas commenté la question « mois contre semaines », bien que l’implication semble être proche de ce que l’interview susmentionnée met en avant : TTS fait partie de la vision de The Finals. Le jeu utilisera probablement un mélange de travail vocal et d’IA même une fois qu’il sera sorti de la version bêta, à moins que l’opinion publique n’influence autrement Embark Studios.