Google répond à l’IA génératrice de vidéos de Meta avec sa propre image, baptisée Imagen Video

Pour ne pas être en reste avec Make-A-Video de Meta, Google a détaillé aujourd’hui son travail sur Imagen Video, un système d’IA capable de générer des clips vidéo à partir d’une invite textuelle (par exemple « un ours en peluche faisant la vaisselle »). Bien que les résultats ne soient pas parfaits – les clips en boucle que le système génère ont tendance à avoir des artefacts et du bruit – Google affirme qu’Imagen Video est une étape vers un système avec un « degré élevé de contrôlabilité » et une connaissance du monde, y compris la capacité de générer des séquences dans une gamme de styles artistiques.

Comme mon collègue Devin Coldewey l’a noté dans son article sur Make-A-Video, les systèmes de synthèse vidéo ne sont pas nouveaux. Plus tôt cette année, un groupe de chercheurs de l’Université Tsinghua et de l’Académie d’intelligence artificielle de Pékin a publié CogVideo, qui peut traduire du texte en courts clips raisonnablement haute fidélité. Mais Imagen Video semble être un bond significatif par rapport à l’état de l’art précédent, montrant une aptitude à animer des sous-titres que les systèmes existants auraient du mal à comprendre.

« C’est définitivement une amélioration », a déclaré Matthew Guzdial, professeur adjoint à l’Université de l’Alberta qui étudie l’IA et l’apprentissage automatique, à TechCrunch par e-mail. « Comme vous pouvez le voir dans les exemples vidéo, même si l’équipe de communication sélectionne les meilleures sorties, il y a toujours un flou et un artifice étranges. Donc, cela ne sera certainement pas utilisé directement dans l’animation ou la télévision de si tôt. Mais cela, ou quelque chose comme ça, pourrait certainement être intégré dans des outils pour aider à accélérer certaines choses.

Crédits image : Google

Google Imagen Vidéo

Crédits image : Google

Imagen Video s’appuie sur Imagen de Google, un système de génération d’images comparable à DALL-E 2 et Stable Diffusion d’OpenAI. Imagen est ce qu’on appelle un modèle de « diffusion », générant de nouvelles données (par exemple des vidéos) en apprenant comment « détruire » et « récupérer » de nombreux échantillons de données existants. Au fur et à mesure qu’il alimente les échantillons existants, le modèle récupère mieux les données qu’il avait précédemment détruites pour créer de nouvelles œuvres.

Google Imagen Vidéo

Crédits image : Google

Comme l’explique l’équipe de recherche de Google derrière Imagen Video dans un article, le système prend une description textuelle et génère une vidéo de 16 images, trois images par seconde à une résolution de 24 x 48 pixels. Ensuite, le système met à l’échelle et « prédit » des images supplémentaires, produisant une vidéo finale de 128 images, 24 images par seconde à 720p (1280 × 768).

Google Imagen Vidéo

Crédits image : Google

Google Imagen Vidéo

Crédits image : Google

Google indique qu’Imagen Video a été formé sur 14 millions de paires vidéo-texte et 60 millions de paires image-texte ainsi que sur l’ensemble de données image-texte LAION-400M accessible au public, ce qui lui a permis de se généraliser à une gamme d’esthétiques. (Ce n’est pas une coïncidence si une partie de LAION a été utilisée pour former Stable Diffusion.) Lors d’expériences, ils ont découvert qu’Imagen Video pouvait créer des vidéos dans le style des peintures et des aquarelles de Van Gogh. Peut-être plus impressionnant encore, ils affirment qu’Imagen Video a démontré une compréhension de la profondeur et de la tridimensionnalité, lui permettant de créer des vidéos comme des survols de drones qui tournent et capturent des objets sous différents angles sans les déformer.

Dans une amélioration majeure par rapport aux systèmes de génération d’images disponibles aujourd’hui, Imagen Video peut également restituer correctement le texte. Alors que Stable Diffusion et DALL-E 2 ont du mal à traduire des invites telles que « un logo pour » Diffusion «  » en caractères lisibles, Imagen Video le rend sans problème – du moins à en juger par le papier.

Cela ne veut pas dire qu’Imagen Video est sans limites. Comme c’est le cas avec Make-A-Video, même les clips sélectionnés à partir d’Imagen Video sont nerveux et déformés par endroits, comme l’a fait allusion Guzdial, avec des objets qui se mélangent de manière physiquement non naturelle – et impossible -.

« Dans l’ensemble, le problème du texte en vidéo n’est toujours pas résolu, et il est peu probable que nous atteignions bientôt quelque chose comme DALL-E 2 ou Midjourney en qualité », a poursuivi Guzdial.

Pour améliorer cela, l’équipe d’Imagen Video prévoit de combiner ses forces avec les chercheurs derrière Phenaki, un autre système de synthèse vidéo de Google a fait ses débuts aujourd’hui et peut transformer de longues invites détaillées en vidéos de plus de deux minutes, mais avec une qualité inférieure.

Cela vaut la peine de lever un peu le rideau sur Phenaki pour voir où pourrait mener une collaboration entre les équipes. Alors qu’Imagen Video se concentre sur la qualité, Phenaki privilégie la cohérence et la longueur. Le système peut transformer des invites d’un paragraphe en films d’une longueur arbitraire, d’une scène d’une personne conduisant une moto à un vaisseau spatial extraterrestre survolant une ville futuriste. Les clips générés par Phenaki souffrent des mêmes problèmes que ceux d’Imagen Video, mais je trouve remarquable à quel point ils suivent de près les descriptions textuelles longues et nuancées qui les ont poussés.

Par exemple, voici une invite envoyée à Phenaki :

Beaucoup de trafic dans la ville futuriste. Un vaisseau spatial extraterrestre arrive dans la ville futuriste. La caméra pénètre à l’intérieur du vaisseau spatial extraterrestre. La caméra avance jusqu’à montrer un astronaute dans la salle bleue. L’astronaute tape sur le clavier. La caméra s’éloigne de l’astronaute. L’astronaute quitte le clavier et marche vers la gauche. L’astronaute quitte le clavier et s’éloigne. La caméra se déplace au-delà de l’astronaute et regarde l’écran. L’écran derrière l’astronaute affiche des poissons nageant dans la mer. Zoomez sur le poisson bleu. Nous suivons le poisson bleu alors qu’il nage dans l’océan sombre. La caméra pointe vers le ciel à travers l’eau. L’océan et le littoral d’une ville futuriste. Crash zoom vers un gratte-ciel futuriste. La caméra zoome sur l’une des nombreuses fenêtres. Nous sommes dans un bureau avec des bureaux vides. Un lion court sur les bureaux. La caméra zoome sur le visage du lion, à l’intérieur du bureau. Effectuez un zoom arrière sur le lion vêtu d’un costume sombre dans un bureau. Le lion portant regarde la caméra et sourit. La caméra effectue un zoom arrière lentement vers l’extérieur du gratte-ciel. Timelapse du coucher du soleil dans la ville moderne.

Et voici la vidéo générée :

Phénaki

Crédits image : Google

De retour à Imagen Video, les chercheurs notent également que les données utilisées pour former le système contenaient un contenu problématique, ce qui pourrait amener Imagen Video à produire des clips graphiquement violents ou sexuellement explicites. Google dit qu’il ne publiera pas le modèle ou le code source d’Imagen Video « jusqu’à ce que ces préoccupations soient atténuées » et, contrairement à Meta, il ne fournira aucune sorte de formulaire d’inscription pour enregistrer l’intérêt.

Pourtant, avec la technologie texte-vidéo progressant à un rythme rapide, il ne faudra peut-être pas longtemps avant qu’un modèle open source émerge – à la fois stimulant la créativité humaine et présentant un défi insoluble en ce qui concerne les deepfakes, le droit d’auteur et la désinformation.

Source-146