Le nouveau modèle d’IA « Diffusion vidéo stable » peut animer n’importe quelle image fixe

Agrandir / Encore des exemples d’images animées à l’aide de Stable Video Diffusion par Stability AI.

IA de stabilité

Mardi, Stability AI a publié Stable Video Diffusion, un nouvel outil de recherche gratuit sur l’IA qui peut transformer n’importe quelle image fixe en une courte vidéo, avec des résultats mitigés. Il s’agit d’un aperçu à poids ouvert de deux modèles d’IA qui utilisent une technique appelée image vers vidéo, et il peut s’exécuter localement sur une machine dotée d’un GPU Nvidia.

L’année dernière, Stability AI a fait des vagues avec la sortie de Stable Diffusion, un modèle de synthèse d’images à « poids ouverts » qui a lancé une vague de synthèse d’images ouverte et a inspiré une grande communauté d’amateurs qui ont développé cette technologie avec leurs propres finesses personnalisées. réglages. Désormais, Stability souhaite faire de même avec la synthèse vidéo AI, bien que la technologie en soit encore à ses balbutiements.

À l’heure actuelle, Stable Video Diffusion se compose de deux modèles : un qui peut produire une synthèse image-vidéo d’une longueur de 14 images (appelé « SVD ») et un autre qui génère 25 images (appelé « SVD-XT »). Ils peuvent fonctionner à des vitesses variables de 3 à 30 images par seconde et produisent de courts clips vidéo MP4 (généralement de 2 à 4 secondes) à une résolution de 576 × 1024.

Lors de nos tests locaux, la création d’une génération de 14 images a pris environ 30 minutes sur une carte graphique Nvidia RTX 3060, mais les utilisateurs peuvent expérimenter l’exécution des modèles beaucoup plus rapidement sur le cloud via des services tels que Hugging Face et Replicate (dont vous pouvez il faut payer). Dans nos expériences, l’animation générée maintient généralement une partie de la scène statique et ajoute des effets de panoramique et de zoom ou anime de la fumée ou du feu. Les personnes représentées sur les photos ne bougent souvent pas, même si nous avons réussi à donner vie à une image Getty de Steve Wozniak.

(Remarque : outre la photo de Steve Wozniak Getty Images, les autres images animées dans cet article ont été générées avec DALL-E 3 et animées à l’aide de Stable Video Diffusion.)

Compte tenu de ces limites, Stability souligne que le modèle est encore précoce et est destiné uniquement à la recherche. « Bien que nous mettions à jour nos modèles avec les dernières avancées et que nous nous efforcions d’intégrer vos commentaires », écrit la société sur son site Web, « ce modèle n’est pas destiné à des applications réelles ou commerciales à ce stade. Vos idées et commentaires sur la sécurité et La qualité est importante pour affiner ce modèle en vue de sa sortie éventuelle. »

Notamment, mais peut-être sans surprise, le document de recherche sur la diffusion vidéo stable ne révèle pas la source des ensembles de données d’entraînement des modèles, indiquant seulement que l’équipe de recherche a utilisé « un vaste ensemble de données vidéo comprenant environ 600 millions d’échantillons » qu’elle a organisé dans le grand ensemble de données vidéo. (LVD), qui comprend 580 millions de clips vidéo annotés couvrant 212 années de contenu.

Stable Video Diffusion est loin d’être le premier modèle d’IA à offrir ce genre de fonctionnalités. Nous avons déjà abordé d’autres méthodes de synthèse vidéo IA, notamment celles de Meta, Google et Adobe. Nous avons également couvert le ModelScope open source et ce que beaucoup considèrent comme le meilleur modèle vidéo d’IA à l’heure actuelle, le modèle Gen-2 de Runway (Pika Labs est un autre fournisseur de vidéo d’IA). Stability AI indique qu’elle travaille également sur un modèle texte-vidéo, qui permettra la création de courts clips vidéo à l’aide d’invites écrites au lieu d’images.

La source et les poids de Stable Video Diffusion sont disponibles sur GitHub, et un autre moyen simple de le tester localement consiste à l’exécuter via la plate-forme Pinokio, qui gère facilement les dépendances d’installation et exécute le modèle dans son propre environnement.

Source-147