Les artistes VFX montrent qu’Hollywood peut utiliser l’IA pour créer, pas pour exploiter

Hollywood pourrait être impliqué dans les conflits de travail en cours impliquant l’IA, mais la technologie a infiltré le cinéma et la télévision il y a très, très longtemps. Au SIGGRAPH à Los Angeles, les outils algorithmiques et génératifs ont été exposés dans d’innombrables conférences et annonces. Nous ne savons peut-être pas encore où s’intègrent GPT-4 et Stable Diffusion, mais le côté créatif de la production est prêt à les adopter – si cela peut être fait de manière à augmenter plutôt qu’à remplacer les artistes.

SIGGRAPH n’est pas une conférence sur la production cinématographique et télévisuelle, mais sur l’infographie et les effets visuels (depuis 50 ans maintenant !), et les sujets se chevauchent naturellement de plus en plus ces dernières années.

Cette année, l’éléphant dans la salle a été la grève, et peu de présentations ou de discussions y ont été consacrées ; cependant, lors des afterparties et des événements de réseautage, c’était plus ou moins la première chose que l’on évoquait. Malgré cela, SIGGRAPH est avant tout une conférence visant à rassembler des esprits techniques et créatifs, et l’ambiance que j’ai ressentie était « c’est nul, mais en attendant, nous pouvons continuer à améliorer notre métier ».

Les craintes autour de l’IA en production sont pour ne pas dire illusoires, mais certainement un peu trompeuses. L’IA générative, comme les modèles d’images et de textes, s’est considérablement améliorée, ce qui fait craindre qu’elle ne remplace les écrivains et les artistes. Et il est certain que les dirigeants des studios ont lancé des espoirs néfastes – et irréalistes – de remplacer en partie les scénaristes et les acteurs par des outils d’IA. Mais l’IA est présente dans le cinéma et la télévision depuis un certain temps déjà, accomplissant des tâches importantes et pilotées par les artistes.

J’ai vu cela exposé dans de nombreux panels, présentations de documents techniques et entretiens. Bien sûr, une histoire de l’IA dans les effets visuels serait intéressante, mais pour le moment, voici quelques façons dont l’IA sous ses différentes formes a été présentée à la pointe des effets et du travail de production.

Les artistes de Pixar mettent à profit le ML et les simulations

Un premier exemple est venu de deux présentations Pixar sur les techniques d’animation utilisées dans leur dernier film, Elemental. Les personnages de ce film sont plus abstraits que d’autres, et la perspective de créer une personne faite de feu, d’eau ou d’air n’est pas facile. Imaginez lutter contre la complexité fractale de ces substances dans un corps capable d’agir et de s’exprimer clairement tout en ayant l’air « réel ».

Comme l’expliquaient tour à tour les animateurs et les coordinateurs d’effets, la génération procédurale était au cœur du processus, simulant et paramétrant les flammes, les vagues ou les vapeurs qui composaient des dizaines de personnages. Sculpter et animer à la main chaque petit brin de flamme ou de nuage qui s’échappe d’un personnage n’a jamais été une option – ce serait un travail extrêmement fastidieux, laborieux et technique plutôt que créatif.

Mais comme les présentations l’ont clairement montré, même si elles s’appuyaient largement sur des simulations et des shaders de matériaux sophistiqués pour créer les effets souhaités, l’équipe artistique et le processus étaient profondément liés à l’ingénierie. (Ils ont également collaboré à cet effet avec des chercheurs de l’ETH Zurich.)

Un exemple est l’apparence générale de l’un des personnages principaux, Ember, qui est fait de flammes. Il ne suffisait pas de simuler des flammes, de modifier les couleurs ou d’ajuster les nombreux cadrans pour affecter le résultat. En fin de compte, les flammes devaient refléter le look souhaité par l’artiste, et pas seulement la façon dont les flammes apparaissent dans la vie réelle. À cette fin, ils ont utilisé le « transfert de style neuronal volumétrique » ou NST ; Le transfert de style est une technique d’apprentissage automatique que la plupart auront expérimentée, par exemple en modifiant un selfie dans le style d’Edvard Munch ou similaire.

Dans ce cas, l’équipe a pris les voxels bruts de la « simulation pyro » ou généré des flammes, et les a fait passer à travers un réseau de transfert de style formé sur l’expression d’un artiste de ce à quoi elle voulait que les flammes du personnage ressemblent : plus stylisées, moins simulées. Les voxels résultants ont l’aspect naturel et imprévisible d’une simulation, mais aussi le casting incomparable choisi par l’artiste.

Exemple simplifié de NST en action ajoutant du style aux flammes d’Ember. Crédits images : Pixar

Bien entendu, les animateurs sont sensibles à l’idée qu’ils ont simplement généré le film grâce à l’IA, ce qui n’est pas le cas.

« Si quelqu’un vous dit que Pixar a utilisé l’IA pour créer Elemental, c’est faux », a déclaré Paul Kanyuk de Pixar lors de la présentation. « Nous avons utilisé le NST volumétrique pour façonner les bords de sa silhouette. »

(Pour être clair, la NST est une technique d’apprentissage automatique que nous identifierions comme relevant de l’IA, mais ce que Kanyuk voulait dire, c’est qu’elle a été utilisée comme un outil pour atteindre un résultat artistique – rien n’a été simplement « fait avec l’IA ». )

Plus tard, d’autres membres des équipes d’animation et de conception ont expliqué comment ils utilisaient des outils procéduraux, génératifs ou de transfert de style pour faire des choses comme recolorer un paysage pour l’adapter à la palette ou au mood board d’un artiste, ou remplir des pâtés de maisons avec des bâtiments uniques mutés de « héros ». ceux dessinés à la main. Le thème clair était que l’IA et les outils adjacents étaient là pour servir les objectifs des artistes, accélérant les processus manuels fastidieux et offrant une meilleure adéquation avec l’apparence souhaitée.

L’IA accélère le dialogue

Images de Nimona, animées par DNEG. Crédits images : DNEG

J’ai entendu une note similaire de la part de Martine Bertrand, chercheuse senior en IA chez DNEG, la société d’effets visuels et de post-production qui a récemment animé l’excellent et visuellement époustouflant Nimona. Il a expliqué que de nombreux effets et pipelines de production existants nécessitent une main-d’œuvre incroyablement intensive, en particulier le développement et la conception de l’environnement. (DNEG a également fait une présentation, « Où le procéduralisme rencontre la performance » qui aborde ces sujets.)

« Les gens ne réalisent pas qu’il y a énormément de temps perdu dans le processus de création », m’a dit Bertrand. Travailler avec un réalisateur pour trouver le bon look pour un plan peut prendre des semaines par tentative, au cours desquelles une communication peu fréquente ou mauvaise conduit souvent à l’abandon de ces semaines de travail. C’est incroyablement frustrant, a-t-il poursuivi, et l’IA est un excellent moyen d’accélérer ce processus et d’autres qui sont loin d’être des produits finaux, mais simplement exploratoires et généraux.

Les artistes utilisant l’IA pour multiplier leurs efforts « permettent le dialogue entre créateurs et réalisateurs », a-t-il déclaré. Une jungle extraterrestre, bien sûr, mais comme ça ? Ou comme ce? Une grotte mystérieuse, comme ça ? Ou comme ce? Pour une histoire visuellement complexe dirigée par un créateur comme Nimona, obtenir un retour rapide est particulièrement important. Perdre une semaine à réaliser un look que le réalisateur rejette une semaine plus tard constitue un sérieux retard de production.

En fait, de nouveaux niveaux de collaboration et d’interactivité sont atteints dans les premiers travaux de création comme la prévisualisation, comme l’a expliqué Sam Wickert, PDG de Sokrispy. Son entreprise a été chargée de réaliser une prévisualisation de la scène de l’épidémie au tout début de « The Last of Us » de HBO – un « oner » complexe dans une voiture avec d’innombrables figurants, mouvements de caméra et effets.

Bien que l’utilisation de l’IA soit limitée dans cette scène plus ancrée, il est facile de voir comment une synthèse vocale améliorée, la génération d’environnements procéduraux et d’autres outils ont pu contribuer et ont contribué à ce processus de plus en plus avancé sur le plan technologique.

Plan final, données mocap, masque et environnement 3D générés par Wonder Studio. Crédits images : Studio des Merveilles

Wonder Dynamics, qui a été cité dans plusieurs discours et présentations, offre un autre exemple d’utilisation de processus d’apprentissage automatique en production, entièrement sous le contrôle des artistes. Les modèles avancés de reconnaissance de scènes et d’objets analysent les images normales et remplacent instantanément les acteurs humains par des modèles 3D, un processus qui prenait autrefois des semaines, voire des mois.

Mais comme ils me l’ont dit il y a quelques mois, les tâches qu’ils automatisent ne sont pas des tâches créatives : il s’agit d’un travail épuisant par cœur (parfois roto) qui n’implique presque aucune décision créative. « Cela ne perturbe pas ce qu’ils font ; il automatise 80 à 90 % du travail objectif des effets visuels et leur laisse le travail subjectif », a alors déclaré le co-fondateur Nikola Todorovic. Je l’ai rencontré ainsi que son co-fondateur, l’acteur Tye Sheridan de SIGGRAPH, et ils ont apprécié d’être les porte-parole de la ville : il était clair que l’industrie évoluait dans la direction dans laquelle elle avait commencé il y a des années. (Au fait, venez voir Sheridan sur la scène de l’IA à TechCrunch Disrupt en septembre.)

Cela dit, les avertissements des scénaristes et acteurs en grève ne sont en aucun cas écartés par la communauté VFX. En fait, ils leur font écho et leurs préoccupations sont similaires, sinon aussi existentielles. Pour un acteur, son image ou sa performance (ou pour un écrivain, son imagination et sa voix) est son gagne-pain, et la menace qu’elle soit appropriée et entièrement automatisée est terrifiante.

Pour les artistes impliqués dans le processus de production, la menace de l’automatisation est également réelle et relève davantage d’un problème humain que technologique. De nombreuses personnes à qui j’ai parlé ont convenu que les mauvaises décisions prises par des dirigeants mal informés constituent le véritable problème.

« L’IA semble si intelligente que vous pourriez confier votre processus de prise de décision à la machine », a déclaré Bertrand. « Et quand les humains rejettent leurs responsabilités sur les machines, c’est où ça devient effrayant.

Si l’IA peut être exploitée pour améliorer ou rationaliser le processus créatif, par exemple en réduisant le temps consacré aux tâches répétitives ou en permettant aux créateurs disposant d’équipes ou de budgets plus petits d’égaler leurs pairs mieux dotés en ressources, cela pourrait être transformateur. Mais si le processus créatif est confié à l’IA, une voie que certains dirigeants semblent désireux d’explorer, alors, malgré la technologie déjà omniprésente à Hollywood, les grèves ne feront que commencer.

Source-146