Aujourd’hui, Meta a annoncé Make-A-Video, un générateur vidéo alimenté par l’IA qui peut créer un nouveau contenu vidéo à partir d’invites de texte ou d’image, similaire aux outils de synthèse d’images existants comme DALL-E et Stable Diffusion. Il peut également faire des variations de vidéos existantes, bien qu’il ne soit pas encore disponible pour un usage public.
Sur la page d’annonce de Make-A-Video, Meta montre des exemples de vidéos générées à partir de texte, notamment « un jeune couple marchant sous une pluie battante » et « un ours en peluche peignant un portrait ». Il présente également la capacité de Make-A-Video à prendre une image source statique et à l’animer. Par exemple, une image fixe d’une tortue de mer, une fois traitée par le modèle d’IA, peut sembler nager.
La technologie clé derrière Make-A-Video et pourquoi elle est arrivée plus tôt que quelques spécialistes prévu – est qu’il s’appuie sur le travail existant avec la synthèse texte-image utilisée avec des générateurs d’images comme DALL-E d’OpenAI. En juillet, Meta a annoncé son propre modèle d’IA text-to-image appelé Make-A-Scene.
Au lieu de former le modèle Make-A-Video sur des données vidéo étiquetées (par exemple, des descriptions sous-titrées des actions représentées), Meta a plutôt pris des données de synthèse d’images (images fixes formées avec des légendes) et appliqué des données de formation vidéo non étiquetées afin que le modèle apprenne un sens de l’endroit où une invite de texte ou d’image peut exister dans le temps et l’espace. Ensuite, il peut prédire ce qui vient après l’image et afficher la scène en mouvement pendant une courte période.
« En utilisant des transformations préservant la fonction, nous étendons les couches spatiales au stade de l’initialisation du modèle pour inclure des informations temporelles », a écrit Meta dans un livre blanc. « Le réseau spatio-temporel étendu comprend de nouveaux modules d’attention qui apprennent la dynamique temporelle du monde à partir d’une collection de vidéos. »
Meta n’a pas fait d’annonce sur comment ou quand Make-A-Video pourrait devenir disponible au public ou qui y aurait accès. Meta fournit un formulaire d’inscription que les gens peuvent remplir s’ils souhaitent l’essayer à l’avenir.
Meta reconnaît que la possibilité de créer des vidéos photoréalistes à la demande présente certains risques sociaux. Au bas de la page d’annonce, Meta indique que tout le contenu vidéo généré par l’IA de Make-A-Video contient un filigrane pour « aider à s’assurer que les téléspectateurs savent que la vidéo a été générée avec l’IA et n’est pas une vidéo capturée ».
Si l’histoire est un guide, compétitif des modèles de texte en vidéo open source peuvent suivre (certains, comme CogVideo, existent déjà), ce qui pourrait rendre la protection du filigrane de Meta non pertinente.