StabilityAI, la société à l’origine du générateur d’images d’intelligence artificielle Stable Diffusion, a ajouté la vidéo à son playbook.
Le nouveau modèle est construit sur son outil d’image existant et permettra aux utilisateurs de transformer n’importe quelle image en vidéo en appuyant simplement sur un bouton. Actuellement, il ne s’agit que d’un aperçu de recherche et n’est pas disponible pour un usage commercial, mais StabilityAI affirme que cette version anticipée est parfaite pour les amateurs et à des fins éducatives.
Les termes et conditions interdisent aux créateurs de l’utiliser pour produire du contenu se faisant passer pour une représentation de personnes ou d’événements – pas de contrefaçon ici.
Qu’est-ce que ça peut faire?
Comme les premières versions des outils de génération vidéo de Runway, Stable Video Diffusion (SVD) est une diffusion image-vidéo, vous avez donc besoin d’une image de départ pour démarrer. Runway dispose également d’une fonction texte-vidéo, tout comme la nouvelle vidéo Emu de Meta lors de sa sortie. SVD a été formé sur un ensemble de données de millions de vidéos, puis affiné pour plus de précision sur une plus petite sélection de clips étiquetés. La source des données de formation est probablement une bibliothèque publique de recherche de vidéos, ce qui explique également la licence non commerciale.
Les vidéos de démonstration semblent montrer qu’il est capable de produire de courts clips vidéo photoréalistes proches, mais pas parfaits, en résolution haute définition. Le document de recherche indique qu’il peut générer 25 images par seconde à 576 x 1024.
Est-ce aussi bon que ça en a l’air ?
Cette version présente également plusieurs limitations. Il ne peut produire que des clips de quatre secondes dans son incarnation initiale, bien que ce soit la même chose que Runway.
Selon StabilityAI, ce nouveau modèle est incapable de générer des clips vidéo à partir d’une invite de texte. Cela ne fonctionne que lorsqu’on lui donne une image comme point de départ. Ses plus gros problèmes viennent de la façon dont vous souhaitez l’utiliser. Par exemple, cela peut produire des panoramiques de caméra très lents ou aucun mouvement du tout.
Cependant, il pourrait être adapté à l’avenir pour offrir des vues à 360° d’un objet dans une vidéo, permettant ainsi un panoramique complet. La société travaille également sur des versions texte-vidéo qui permettraient aux utilisateurs de créer une vidéo à partir d’une simple ligne de texte.
L’objectif est probablement d’octroyer une licence pour le modèle aux entreprises afin de l’inclure dans d’autres produits tels que des éditeurs vidéo, des outils publicitaires et même une formation destinée aux enseignants afin de créer des cours plus interactifs.