Les créateurs du court métrage basé sur Sora expliquent les forces et les limites de la vidéo générée par l’IA

L’outil de génération vidéo d’OpenAI, Sora, a surpris la communauté de l’IA en février avec une vidéo fluide et réaliste qui semble bien en avance sur ses concurrents. Mais les débuts soigneusement mis en scène ont laissé de côté de nombreux détails – des détails qui ont été complétés par un cinéaste bénéficiant d’un accès anticipé pour créer un court métrage utilisant Sora.

Shy Kids est une équipe de production numérique basée à Toronto qui a été choisie par OpenAI comme l’une des rares à produire des courts métrages essentiellement à des fins promotionnelles d’OpenAI, bien qu’elle ait bénéficié d’une liberté créative considérable pour créer une « tête aérienne ». Dans une interview avec le média d’effets visuels fxguide, l’artiste de post-production Patrick Cederberg a décrit « l’utilisation réelle de Sora » dans le cadre de son travail.

Le point le plus important à retenir pour la plupart est peut-être simplement le suivant : bien que l’article d’OpenAI mettant en avant les courts métrages laisse au lecteur supposer qu’ils sont plus ou moins sortis complètement formés de Sora, la réalité est qu’il s’agissait de productions professionnelles, dotées d’un storyboard, d’un montage, d’une correction des couleurs, et post-travail comme la rotoscopie et les VFX. Tout comme Apple dit « tourné sur iPhone » mais ne montre pas la configuration du studio, l’éclairage professionnel et le travail des couleurs après coup, le message de Sora ne parle que de ce qu’il permet aux gens de faire, pas de la façon dont ils l’ont réellement fait.

L’interview de Cederberg est intéressante et assez non technique, donc si vous êtes intéressé, rendez-vous sur fxguide et lisez-la. Mais voici quelques pépites intéressantes sur l’utilisation de Sora qui nous disent que, aussi impressionnant soit-il, le modèle constitue peut-être moins un pas de géant que nous le pensions.

Le contrôle reste à ce stade la chose la plus souhaitable et aussi la plus insaisissable. … Le mieux que nous puissions obtenir était simplement d’être hyper-descriptif dans nos invites. Expliquer la garde-robe des personnages, ainsi que le type de ballon, était notre moyen de garantir la cohérence, car plan par plan/génération en génération, il n’y a pas encore de fonctionnalité mise en place pour un contrôle total sur la cohérence.

En d’autres termes, des questions simples dans le cinéma traditionnel, comme le choix de la couleur des vêtements d’un personnage, nécessitent des solutions de contournement et des contrôles élaborés dans un système génératif, car chaque plan est créé indépendamment des autres. Cela pourrait évidemment changer, mais c’est certainement beaucoup plus laborieux pour le moment.

Les résultats de Sora devaient également être surveillés pour détecter les éléments indésirables : Cederberg a décrit comment le modèle générerait régulièrement un visage sur le ballon que le personnage principal a pour tête, ou une ficelle qui pendait devant. Ceux-ci devaient être supprimés par la poste, un autre processus fastidieux, s’ils ne pouvaient pas recevoir l’invite pour les exclure.

Le timing et les mouvements précis des personnages ou de la caméra ne sont pas vraiment possibles : « Il y a un petit contrôle temporel sur l’endroit où ces différentes actions se produisent dans la génération réelle, mais ce n’est pas précis… c’est une sorte de prise de vue dans le noir », a déclaré Cederberg.

Par exemple, chronométrer un geste comme une vague est un processus très approximatif et axé sur les suggestions, contrairement aux animations manuelles. Et une prise de vue comme un panoramique vers le haut sur le corps du personnage peut ou non refléter ce que veut le cinéaste – donc l’équipe dans ce cas a rendu une photo composée en orientation portrait et a fait un recadrage en post-production. Les clips générés étaient aussi souvent au ralenti sans raison particulière.

Exemple d’un plan tel qu’il sort de Sora et comment il s’est terminé dans le court métrage. Crédits images : Enfants timides

En fait, l’utilisation du langage courant du cinéma, comme « panoramique à droite » ou « travelling » était en général incohérente, a déclaré Cederberg, ce que l’équipe a trouvé assez surprenant.

« Les chercheurs, avant d’approcher les artistes pour qu’ils jouent avec cet outil, ne pensaient pas vraiment comme des cinéastes », a-t-il déclaré.

En conséquence, l’équipe a réalisé des centaines de générations, chacune pendant 10 à 20 secondes, et a fini par n’en utiliser qu’une poignée. Cederberg a estimé le ratio à 300:1 – mais bien sûr, nous serions probablement tous surpris du ratio sur un tournage ordinaire.

L’équipe a en fait réalisé une petite vidéo en coulisses expliquant certains des problèmes rencontrés, si vous êtes curieux. Comme beaucoup de contenu adjacent à l’IA, les commentaires sont assez critiques à l’égard de l’ensemble du projet – bien qu’ils ne soient pas aussi virulents que la publicité assistée par l’IA que nous avons vue récemment mise au pilori.

Le dernier problème intéressant concerne le droit d’auteur : si vous demandez à Sora de vous offrir un clip « Star Wars », il refusera. Et si vous essayez de le contourner avec « un homme en robe avec une épée laser sur un vaisseau spatial rétro-futuriste », il refusera également, car par un mécanisme il reconnaît ce que vous essayez de faire. Il a également refusé de faire un « plan à la Aronofsky » ou un « zoom Hitchcock ».

D’une part, c’est tout à fait logique. Mais cela soulève la question suivante : si Sora sait de quoi il s’agit, cela signifie-t-il que le modèle a été formé sur ce contenu, pour mieux reconnaître qu’il porte atteinte au contenu ? OpenAI, qui garde ses cartes de données de formation à proximité du gilet – jusqu’à l’absurdité, comme avec Entretien de la CTO Mira Murati avec Joanna Stern – ne nous le dira presque certainement jamais.

Quant à Sora et à son utilisation dans la réalisation de films, c’est clairement un outil puissant et utile à sa place, mais sa place n’est pas de « créer des films de toutes pièces ». Encore. Comme l’a dit un autre méchant, « cela vient plus tard ».

Source-146