En 1982, Andy Warhol a été, de manière quelque peu tristement célèbre, transformé en robot. La machine a été fabriquée par un vétéran de Disney Imagineering pour un projet qui n’a jamais vraiment décollé, mais Warhol aimait son moi animatronique. « Les machines ont moins de problèmes », a-t-il dit un jour. « J’aimerais être une machine, pas vous ? » L’artiste, décédé en 1987, était un maître de son propre culte de la personnalité, et le robot était pratiquement une manifestation de la façon dont le monde le percevait : méticuleusement conçu, bien qu’un peu rigide et monotone dans son style conversationnel.
Andrew Rossi le sait. C’est en partie la raison pour laquelle le cinéaste s’est senti bien de laisser une machine artificiellement intelligente parler pour Warhol dans sa nouvelle série documentaire pour Netflix. Basé sur un livre du même nom, le documentaire en six parties Les journaux d’Andy Warhol est partiellement raconté par une IA lisant les histoires que l’artiste a racontées au chroniqueur Pat Hackett. La voix ressemble à celle de Warhol – et puis vous vous souvenez que la voix que le monde connaissait était toujours plate et robotique. Le travail de Warhol consiste à remettre en question l’iconographie et l’attrait au niveau de la surface. Il a gardé sa voix plate pour maintenir cette image, pour démentir à quel point il y mettait du cœur, dit Rossi, ajoutant «quand il a parlé, il a continué cette performance superficielle qui faisait également partie de sa façon de s’habiller et de sa façon de faire de l’art. .”
Même encore, utiliser une voix d’IA pour parler au nom d’une personnalité culturelle bien-aimée – ou de n’importe qui, vraiment – n’est pas sans dilemmes éthiques. Rossi éditait déjà Les journaux d’Andy Warhol l’été dernier, lorsqu’une controverse a éclaté autour du réalisateur Morgan Neville utilisant l’IA pour recréer la voix d’Anthony Bourdain pour son doc Roadrunner. Rossi avait été en consultation avec la Fondation Andy Warhol au sujet de la récréation de l’IA, et le document Bourdain a inspiré un avertissement qui apparaît maintenant quelques minutes plus tard. Agendas indiquant que la voix a été créée avec la permission de la Fondation. « Quand Andrew a partagé l’idée d’utiliser une voix d’IA, j’ai pensé: » Wow, c’est aussi audacieux qu’intelligent « », déclare Michael Dayton Hermann, responsable des licences de la fondation.
En étant franc, le documentaire de Rossi évite l’un des gros problèmes Roadrunner confronté. Les téléspectateurs savent dès le départ que ce qu’ils entendent est généré par ordinateur ; alors qu’une grande partie du contrecoup auquel Neville a été confrontée est venue du fait que son deepfake n’a pas été initialement divulgué. Mais cela ne signifie pas qu’il n’y a pas encore beaucoup de questions sans réponse sur le moment où il est et n’est pas acceptable de recréer la voix de quelqu’un avec une machine. Dans le documentaire Bourdain, les mots prononcés par l’IA ont en fait été écrits par le défunt chef, mais il n’y a pas de véritables enregistrements de lui les disant. Pour AgendasWarhol a fait une fois parlez toutes les choses que l’IA Andy dit – il les a dites à Hackett – mais elles n’ont pas été enregistrées à l’époque. Ces mises en garde font-elles une différence ? Ces deux documentaires ont utilisé l’IA parce que leurs sujets étaient décédés. Vraisemblablement, il y aurait un ensemble différent de préoccupations éthiques s’ils vivaient. Et si ce n’étaient pas seulement les voix qui étaient recréées ? Et si leurs ressemblances l’étaient aussi ? L’IA et d’autres technologies s’améliorent à un point où les effets numériques peuvent pratiquement créer des performances entières. La question sera bientôt de savoir s’ils le devraient.
Zohaib Ahmed pense beaucoup à ces choses. Le PDG de Resemble AI, c’est vers lui que Rossi s’est tourné pour créer la voix de Warhol. Mais avant même qu’Ahmed ne signe le projet, il s’est assuré que la Fondation Warhol avait donné son accord. En règle générale, Resemble AI travaille avec les voix de personnes encore en vie – en faisant en grande partie des réponses vocales automatisées pour les centres d’appels et autres – mais la société affirme qu’elle reste stricte sur les directives. « [Warhol’s] les journaux intimes sont écrits d’une manière vraiment intéressante, presque comme s’ils étaient destinés à être lus à haute voix. Ils sont dans sa voix », dit Ahmed. « C’est presque comme si c’était une extension du travail d’Andy, donc nous ne créions pas quelque chose qui était un dilemme éthique pour nous. »
Ainsi, le projet pour la paire semblait éthique, mais pas facile. D’une part, il y avait cette voix que Warhol s’était créée – un ton monotone construit à partir de son éducation à Pittsburgh et de ses années sur la scène artistique de New York. D’autre part, Ahmed et son équipe n’avaient pas beaucoup de cette voix avec laquelle travailler. Lorsque l’entreprise a démarré, elle ne disposait que d’environ 3 minutes et 12 secondes de données audio et devait créer une voix capable de lire environ 30 pages de texte. Pour ce faire, le moteur d’IA de Resemble a utilisé les caractéristiques – ou phonèmes – de la voix de Warhol qui se trouvaient dans cet ensemble de données pour prédire les phonèmes qui ne l’étaient pas afin de créer une voix assez complète. Cette voix a ensuite été chargée sur la plate-forme Web de l’entreprise, où les utilisateurs – dans ce cas, Rossi – pouvaient saisir ce qu’ils voulaient que la voix dise, puis demander à l’IA de faire des ajustements jusqu’à ce que cela sonne comme ils le souhaitaient. Pouvoir avoir cette implication humaine, dit Ahmed, est « vraiment puissant ». Cela permettait même à Rossi de déplacer l’émotion ou de faire dire à Warhol des mots qui nécessitaient un accent, comme par exemple le nom de son ami et collaborateur Jean-Michel Basquiat.
En fin de compte, l’IA n’a pas tout fait en se basant uniquement sur ces quelques minutes. En cours de route, Rossi a fait appel à l’acteur Bill Irwin pour enregistrer quelques lignes d’une voix de Warhol afin d’aider la machine à apprendre la bonne livraison. « Nous avons essayé des modèles combinant 80 à 75 % des voix de l’IA et 20 à 15 % des performances de Bill », explique Rossi. « Au final, la voix d’Andy tout au long de la série présente une variation de gammes sur ce modèle interpolé. » Certains mots – « quaalude », par exemple, ou « test de Rorschach » nécessitaient plus de modulation de hauteur, et parfois Rossi insérait phonétiquement des sons dans l’algorithme, forçant l’IA à dire les choses d’une certaine manière grâce à une orthographe créative. « Gardez à l’esprit », dit le réalisateur, « c’est pour Andy, qui a un accent de Pittsburgh mais qui donne des noms et des lieux par téléphone en tant que vétéran new-yorkais. »
Les journaux d’Andy Warholsert alors de rappel de ce que pouvait être possible. Cela ne répond pas entièrement à toutes les questions qui tournent actuellement autour de l’éthique de l’utilisation de l’IA pour ramener des sommités perdues depuis longtemps, mais cela montre à quel point la technologie peut se rapprocher de la recréation du passé tout en étant transparente sur ce qu’elle est exactement. « Quand j’ai entendu la voix créée par l’IA pour la première fois », dit Hermann, « j’étais convaincu que ce serait un moyen incroyablement efficace de donner vie aux journaux de Warhol et d’humaniser l’énigmatique artiste. » En d’autres termes, peut-être qu’un robot peut nous aider à le comprendre mieux que tout.
Plus de grandes histoires WIRED