Meta propose actuellement un service de génération de vidéo AI via Twitter appelé Make-A-Video. Bien que cela semble assez horrible en ce moment, le nombre de commentaires en une seule journée suggère que bientôt la mode de la génération d’images AI sera remplacée par la génération de vidéos AI. C’est un grand pas en avant, avec des chercheurs qui repoussent les limites de l’art génératif tel que nous le connaissons, en particulier la quantité de données nécessaires pour donner vie aux images.
« Avec seulement quelques mots, ce système d’IA à la pointe de la technologie génère des vidéos de haute qualité à partir d’invites de texte », écrit Meta AI dans le tweet, et appelle des invites. L’astuce pour empêcher que des tas de gore et de pornographie non réglementés ne soient générés et publiés sur Twitter ? Envoyez-leur l’invite, et ils force poster les résultats.
Nous sommes heureux de vous présenter Make-A-Video, notre dernière recherche #GenerativeAI ! En quelques mots seulement, ce système d’intelligence artificielle à la pointe de la technologie génère des vidéos de haute qualité à partir d’invites textuelles. Vous avez une idée que vous souhaitez voir ? Répondez à votre invite en utilisant #MetaAI et nous partagerons plus de résultats. pic.twitter.com/q8zjiwLBjb29 septembre 2022
L’alternative à attendre que l’équipe Meta AI (probablement marquée à vie) sélectionne potentiellement votre invite parmi les milliers qui s’entassent maintenant dans les commentaires est de se diriger vers le studio Make-A-Video (s’ouvre dans un nouvel onglet) et inscrivez-vous en utilisant le formulaire Google pour enregistrer votre intérêt (s’ouvre dans un nouvel onglet) dans l’outil.
Le document de recherche qui l’accompagne (avertissement PDF (s’ouvre dans un nouvel onglet)) appelle le processus Make-A-Video « une méthode efficace qui étend un modèle T2I basé sur la diffusion à T2V via un modèle de diffusion factorisé spatio-temporellement ». C’est une façon élégante de dire qu’ils ont utilisé une version évoluée du modèle de génération Text-to-Image de diffusion pour faire bouger les images.
« Bien qu’il y ait des progrès remarquables dans la génération de T2I », lit-on dans l’article, « les progrès de la génération de T2V sont à la traîne en grande partie pour deux raisons principales : le manque d’ensembles de données à grande échelle avec des paires texte-vidéo de haute qualité et la complexité de modéliser des données vidéo de plus grande dimension. »
Essentiellement, la taille et la précision des ensembles de données nécessaires pour former les modèles actuels d’IA texte-vidéo sont tout simplement trop vastes pour être viables.
La chose étonnante à propos de cette évolution est qu' »elle ne nécessite pas de données texte-vidéo appariées », note le journal. Contrairement à de nombreux générateurs de vidéos et d’images qui s’appuient sur des galeries de contenu déjà associées à du texte. « C’est un avantage significatif par rapport aux travaux antérieurs », explique-t-il, car il n’est pas aussi restreint et ne nécessite pas autant de données pour fonctionner.
Il existe plusieurs façons d’utiliser l’outil, soit en remplissant le mouvement entre deux images, en ajoutant simplement du mouvement à une seule image, soit en créant de nouvelles variations d’une vidéo basée sur l’original. Les résultats sont fascinants. Ils sont rêveurs et psychédéliques et peuvent être générés dans plusieurs styles différents.
Bien sûr, ils sont un peu effrayants, surtout si vous vous souvenez que les résultats ne feront que devenir plus réalistes, mais une petite randonnée dans une vallée étrange ne fait jamais de mal à l’approche d’Halloween.