Google dévoile Veo, un générateur vidéo IA haute définition qui pourrait rivaliser avec Sora

Agrandir / Images fixes tirées de vidéos générées par Google Veo.

Google/Benj Edwards

Mardi, lors de Google I/O 2024, Google a annoncé Veo, un nouveau modèle de synthèse vidéo d’IA capable de créer des vidéos HD à partir d’invites de texte, d’image ou de vidéo, similaire à Sora d’OpenAI. Il peut générer des vidéos 1080p d’une durée supérieure à une minute et éditer des vidéos à partir d’instructions écrites, mais il n’a pas encore été diffusé pour une utilisation généralisée.

Veo aurait la possibilité d’éditer des vidéos existantes à l’aide de commandes de texte, de maintenir une cohérence visuelle entre les images et de générer des séquences vidéo d’une durée allant jusqu’à 60 secondes et au-delà à partir d’une seule invite ou d’une série d’invites formant un récit. La société affirme pouvoir générer des scènes détaillées et appliquer des effets cinématographiques tels que des time-lapses, des prises de vue aériennes et divers styles visuels.

Depuis le lancement de DALL-E 2 en avril 2022, nous avons assisté à un défilé de nouveaux modèles de synthèse d’images et de synthèse vidéo qui visent à permettre à toute personne sachant saisir une description écrite de créer une image ou une vidéo détaillée. Bien qu’aucune des deux technologies n’ait été entièrement perfectionnée, les générateurs d’images et de vidéos IA sont de plus en plus performants.

En février, nous avons présenté un aperçu du générateur vidéo Sora d’OpenAI, qui, à l’époque, était considéré par beaucoup comme la meilleure synthèse vidéo IA que l’industrie puisse offrir. Cela a suffisamment impressionné Tyler Perry pour qu’il suspende l’agrandissement de son studio de cinéma. Cependant, jusqu’à présent, OpenAI n’a pas fourni un accès général à l’outil ; il a plutôt limité son utilisation à un groupe sélectionné de testeurs.

Désormais, Veo de Google semble à première vue être capable de réaliser des prouesses de génération vidéo similaires à celles de Sora. Nous ne l’avons pas essayé nous-mêmes, nous ne pouvons donc nous fier qu’aux vidéos de démonstration triées sur le volet que la société a fournies sur son site Web. Cela signifie que quiconque les consulte doit prendre les affirmations de Google avec un énorme grain de sel, car les résultats de la génération peuvent ne pas être typiques.

Les exemples de vidéos de Veo incluent un cow-boy montant à cheval, un tournage rapide dans une rue de banlieue, des brochettes rôties sur un grill, un time-lapse d’une ouverture de tournesol, et bien plus encore. Les représentations détaillées des humains sont visiblement absentes, ce qui a toujours été difficile à générer pour les modèles d’images et de vidéos d’IA sans déformations évidentes.

Google affirme que Veo s’appuie sur les modèles de génération vidéo précédents de l’entreprise, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere. Pour améliorer la qualité et l’efficacité, les données de formation de Veo incluent des sous-titres vidéo plus détaillés et utilisent des représentations vidéo « latentes » compressées. Pour améliorer la qualité de génération vidéo de Veo, Google a inclus des légendes plus détaillées pour les vidéos utilisées pour entraîner Veo, permettant à l’IA d’interpréter les invites avec plus de précision.

Veo semble également remarquable dans la mesure où il prend en charge les commandes de réalisation de films : « Lorsqu’on lui donne à la fois une commande d’entrée vidéo et une commande d’édition, comme l’ajout de kayaks à une prise de vue aérienne d’un littoral, Veo peut appliquer cette commande à la vidéo initiale et créer une nouvelle vidéo éditée,  » dit l’entreprise.

Bien que les démos semblent impressionnantes à première vue (surtout si on les compare à Will Smith mangeant des spaghettis), Google reconnaît que la génération de vidéos IA est difficile. « Maintenir la cohérence visuelle peut être un défi pour les modèles de génération vidéo », écrit la société. « Des personnages, des objets ou même des scènes entières peuvent scintiller, sauter ou se transformer de manière inattendue entre les images, perturbant ainsi l’expérience visuelle. »

Google a essayé d’atténuer ces inconvénients avec des « transformateurs de diffusion latente de pointe », ce qui est fondamentalement un discours marketing dénué de sens et sans détails. Mais la société est suffisamment confiante dans le modèle pour travailler avec l’acteur Donald Glover et son studio, Gilga, pour créer un film de démonstration généré par l’IA qui fera bientôt ses débuts.

Dans un premier temps, Veo sera accessible à certains créateurs via VideoFX, un nouvel outil expérimental disponible sur le site Web AI Test Kitchen de Google, labs.google. Les créateurs peuvent s’inscrire sur une liste d’attente pour VideoFX afin d’accéder potentiellement aux fonctionnalités de Veo dans les semaines à venir. Google prévoit d’intégrer à l’avenir certaines des fonctionnalités de Veo dans YouTube Shorts et d’autres produits.

On ne sait pas encore où Google a obtenu les données de formation pour Veo (si nous devions deviner, YouTube était probablement impliqué). Mais Google affirme adopter une démarche « responsable » avec Veo. Selon la société, « les vidéos créées par Veo sont filigranées à l’aide de SynthID, notre outil de pointe pour filigraner et identifier le contenu généré par l’IA, et sont passées par des filtres de sécurité et des processus de vérification de mémorisation qui aident à atténuer les risques de confidentialité, de droits d’auteur et de préjugés. »

Source-147