Lumiere de Google rapproche la vidéo IA du réel à l’irréel

Le nouveau modèle d’IA de génération vidéo de Google Lumière utilise un nouveau modèle de diffusion appelé Space-Time-U-Net, ou STUNet, qui détermine où se trouvent les éléments dans une vidéo (espace) et comment ils se déplacent et changent simultanément (temps). Ars Technica rapporte que cette méthode permet à Lumiere de créer la vidéo en un seul processus au lieu de rassembler des images fixes plus petites.

Lumiere commence par créer un cadre de base à partir de l’invite. Ensuite, il utilise le framework STUNet pour commencer à approximer l’endroit où les objets dans cette image se déplaceront afin de créer davantage d’images qui s’enchaînent les unes dans les autres, créant ainsi l’apparence d’un mouvement fluide. Lumiere génère également 80 images contre 25 images pour Stable Video Diffusion.

Certes, je suis plus un journaliste de texte qu’un spécialiste de la vidéo, mais la bobine sizzle publiée par Google, accompagnée d’un article scientifique pré-imprimé, montre que les outils de génération et d’édition vidéo d’IA sont passés d’une vallée étrange à un niveau presque réaliste en seulement quelques minutes. années. Il établit également la technologie de Google dans l’espace déjà occupé par des concurrents comme Runway, Stable Video Diffusion ou Meta’s Emu. Runway, l’une des premières plates-formes texte-vidéo grand public, a lancé Runway Gen-2 en mars de l’année dernière et a commencé à proposer des vidéos plus réalistes. Les vidéos de défilés ont également du mal à représenter le mouvement.

Google a eu la gentillesse de mettre des clips et des invites sur le site Lumière, ce qui m’a permis de diffuser les mêmes invites via Runway à des fins de comparaison. Voici les résultats:

Oui, certains des clips présentés ont une touche d’artificialité, surtout si l’on regarde de près la texture de la peau ou si la scène est plus atmosphérique. Mais regarde cette tortue ! Il bouge comme une tortue le ferait dans l’eau ! On dirait une vraie tortue ! J’ai envoyé la vidéo d’introduction de Lumière à un ami qui est monteur vidéo professionnel. Tout en soulignant que « on peut clairement dire que ce n’est pas tout à fait réel », elle a trouvé impressionnant que si je ne lui avais pas dit que c’était de l’IA, elle penserait que c’était du CGI. (Elle a également dit : « Cela va me prendre mon travail, n’est-ce pas ? »)

D’autres modèles assemblent des vidéos à partir d’images clés générées où le mouvement s’est déjà produit (pensez aux dessins dans un flip book), tandis que STUNet permet à Lumiere de se concentrer sur le mouvement lui-même en fonction de l’endroit où le contenu généré devrait se trouver à un moment donné dans la vidéo.

Google n’a pas été un acteur majeur dans la catégorie texte-vidéo, mais il a lentement publié des modèles d’IA plus avancés et s’est tourné vers une approche plus multimodale. Son grand modèle de langage Gemini apportera à terme la génération d’images à Bard. Lumiere n’est pas encore disponible pour les tests, mais il montre la capacité de Google à développer une plate-forme vidéo IA comparable – et sans doute un peu meilleure – aux générateurs vidéo IA généralement disponibles comme Runway et Pika. Et juste un rappel, c’était là où en était Google avec la vidéo AI il y a deux ans.

Clip Google Imagen de 2022
Image : Google

Au-delà de la génération texte-vidéo, Lumiere permettra également la génération image-vidéo, la génération stylisée, qui permet aux utilisateurs de créer des vidéos dans un style spécifique, des cinémagraphes qui animent seulement une partie d’une vidéo et l’inpainting pour masquer une zone. de la vidéo pour changer la couleur ou le motif.

Le document Lumiere de Google note cependant qu’« il existe un risque d’utilisation abusive pour créer du contenu faux ou nuisible avec notre technologie, et nous pensons qu’il est crucial de développer et d’appliquer des outils pour détecter les préjugés et les cas d’utilisation malveillants afin de garantir une sécurité et une équité ». utiliser. » Les auteurs de l’article n’ont pas expliqué comment cela pourrait être réalisé.

source site-132