Alors que les LLM tels que ChatGPT vous donneront le texte que vous voulez et que les générateurs graphiques tels que Stable Diffusion créeront une image basée sur une invite, l’IA texte-vidéo est encore un domaine émergent. Plus tôt cette semaine, nous avons rendu compte d’une publicité AI Pizza qui utilisait un outil de synthèse vidéo appelé Runway Gen-2 (s’ouvre dans un nouvel onglet) pour sa vidéo. Cependant, à l’heure actuelle, Runway Gen-2 est en version bêta sur invitation uniquement. Donc, à moins que vous n’ayez été invité, vous ne pouvez pas l’essayer.
Heureusement, il existe un outil entièrement gratuit et facile à utiliser sur Hugging Face (le principal portail de développement d’IA) appelé NeuralInternet Text-to-Video Playground, mais il est limité à seulement deux secondes, juste assez pour un GIF animé. Vous n’avez même pas besoin d’avoir un compte Hugging Face pour l’utiliser. Voici comment.
Comment générer un clip vidéo texte AI de 2 secondes
1. Naviguez vers le Terrain de jeu texte-vidéo (s’ouvre dans un nouvel onglet) dans votre navigateur.
2. Entrez une invite dans la boîte d’invite ou essayez l’une des invites d’exemple au bas de la page (ex : « Un astronaute à cheval »)
3. Entrez votre numéro de semence. La graine est un nombre (de -1 à 1 000 000) que l’IA utilise comme point de départ pour générer l’image. Cela signifie que si vous utilisez une graine de 1, vous devriez obtenir la même sortie à chaque fois avec la même invite. Je recommande d’utiliser une graine de -1, ce qui vous donne un numéro de graine aléatoire à chaque fois.
4. Cliquez sur Exécuter.
Le Text-to-Video Playground prendra alors quelques minutes pour générer son résultat. Vous pouvez voir la progression en regardant la fenêtre de résultat. Selon la quantité de trafic sur le serveur, cela peut prendre plus de temps.
5. Cliquez sur le bouton de lecture pour lire votre vidéo.
6. Faites un clic droit sur votre vidéo et sélectionnez Enregistrer la vidéo sous pour télécharger la vidéo (au format MP4) sur votre PC.
Le modèle utilisé et les résultats
Le terrain de jeu Text-to-Video utilise un modèle de texte en vidéo d’une société chinoise appelée ModelScope, qui affirme que son modèle comporte 1,7 milliard de paramètres (s’ouvre dans un nouvel onglet). Comme de nombreux modèles d’IA qui traitent de l’imagerie, le modèle ModelScope présente certaines limites, au-delà de la durée d’exécution de deux secondes.
Tout d’abord, il est clair que l’ensemble de données de formation provient d’une grande variété d’images Web, dont certaines sont protégées par des droits d’auteur et filigranées. Dans plusieurs exemples, il a montré une partie d’un Shutterstock (s’ouvre dans un nouvel onglet) filigrane sur les objets de la vidéo. Shutterstock est l’un des principaux fournisseurs d’images libres de droits qui nécessite un abonnement payant, mais il semble que les données de formation viennent de saisir ses images sans autorisation.
De plus, tout ne se présente pas comme il se doit. Par exemple, les fans astucieux de kaiju remarqueront que ma vidéo Godzilla en train de manger une pizza ci-dessous montre un monstre qui est un lézard vert géant mais qui n’a aucune des caractéristiques distinctives du monstre japonais préféré de tous.
Enfin, et peut-être que cela va sans dire, il n’y a pas d’audio dans ces vidéos. La meilleure utilisation pour ceux-ci pourrait être de les convertir en GIF animés que vous pouvez envoyer à vos amis. L’image ci-dessus est un GIF animé que j’ai créé à partir d’une de mes vidéos Godzilla-eating-pizza de deux secondes.
Si vous voulez en savoir plus sur la création en IA, consultez nos articles sur comment utiliser Auto-GPT pour créer un agent autonome ou comment utiliser BabyAGI.