À ce stade, soit vous aimez probablement l’idée de créer des vidéos réalistes avec l’IA générative, soit vous pensez qu’il s’agit d’une entreprise moralement en faillite qui dévalorise les artistes et inaugurera une ère désastreuse de deepfakes à laquelle nous n’échapperons jamais. Il est difficile de trouver un juste milieu. Meta ne va pas changer d’avis avec Movie Gen, son dernier modèle d’IA de création vidéo, mais peu importe ce que vous pensez de la création multimédia par l’IA, cela pourrait finir par être une étape importante pour l’industrie.
Movie Gen peut produire des vidéos réalistes ainsi que de la musique et des effets sonores à 16 ips ou 24 ips jusqu’à 1080p (mise à l’échelle de 768 x 768 pixels). Il peut également générer des vidéos personnalisées si vous téléchargez une photo et, surtout, il semble facile d’éditer des vidéos à l’aide de simples commandes de texte. Notamment, il peut également éditer des vidéos normales sans IA avec du texte. Il est facile d’imaginer à quel point cela pourrait être utile pour nettoyer quelque chose que vous avez pris sur votre téléphone pour Instagram. Movie Gen n’est pour le moment qu’une pure recherche. Meta ne le rendra pas public, nous avons donc un peu de temps pour réfléchir à ce que tout cela signifie.
La société décrit Movie Gen comme sa « troisième vague » de recherche sur l’IA générative, faisant suite à ses premiers outils de création multimédia comme Make-A-Scene, ainsi qu’à des offres plus récentes utilisant son modèle Llama AI. Il est alimenté par un modèle de transformateur de 30 milliards de paramètres qui peut créer des vidéos de 16 secondes à 16 ips ou des séquences de 10 secondes à 24 ips. Il dispose également d’un modèle audio de 13 milliards de paramètres qui peut créer 45 secondes de contenu à 48 kHz comme « le son ambiant, les effets sonores (Foley) et la musique de fond instrumentale » synchronisés avec la vidéo. Il n’y a pas encore de support vocal synchronisé « en raison de nos choix de conception », a écrit l’équipe Movie Gen dans son document de recherche.
Meta indique que Movie Gen a été initialement formé sur « une combinaison d’ensembles de données sous licence et accessibles au public », comprenant environ 100 millions de vidéos, un milliard d’images et un million d’heures d’audio. Le langage de l’entreprise est un peu flou en matière d’approvisionnement : Meta a déjà admis avoir entraîné ses modèles d’IA sur les données de chaque compte d’utilisateur australien, il est encore moins clair ce que l’entreprise utilise en dehors de ses propres produits.
En ce qui concerne les vidéos elles-mêmes, Movie Gen semble certainement impressionnant à première vue. Meta affirme que dans ses propres tests A/B, les gens ont généralement préféré ses résultats à ceux du modèle Sora d’OpenAI et Gen3 de Runway. Les humains IA de Movie Gen semblent étonnamment réalistes, sans bon nombre des signes révélateurs de la vidéo IA (yeux et doigts dérangeants, en particulier).
« Bien qu’il existe de nombreux cas d’utilisation passionnants pour ces modèles de base, il est important de noter que l’IA générative ne remplace pas le travail des artistes et des animateurs », a écrit l’équipe Movie Gen dans un article de blog. « Nous partageons cette recherche parce que nous croyons au pouvoir de cette technologie pour aider les gens à s’exprimer de nouvelles manières et à offrir des opportunités à des personnes qui, autrement, ne les auraient pas. »
Cependant, on ne sait toujours pas ce que les utilisateurs grand public feront avec la vidéo générative d’IA. Allons-nous remplir nos flux de vidéos IA, au lieu de prendre nos propres photos et vidéos ? Ou Movie Gen sera-t-il déconstruit en outils individuels qui peuvent nous aider à affiner notre propre contenu ? Nous pouvons déjà facilement supprimer des objets de l’arrière-plan des photos sur les smartphones et les ordinateurs, un montage vidéo IA plus sophistiqué semble être la prochaine étape logique.