jeudi, décembre 26, 2024

La startup d’IA derrière Stable Diffusion teste désormais la vidéo générative

L’art génératif de Stable Diffusion peut désormais être animé, a annoncé le développeur Stability AI. La société a lancé un nouveau produit appelé Stable Video Diffusion dans un aperçu de recherche, permettant aux utilisateurs de créer une vidéo à partir d’une seule image. « Ce modèle vidéo d’IA générative de pointe représente une étape importante dans notre cheminement vers la création de modèles pour tout le monde, de tous types », a écrit la société.

Le nouvel outil a été publié sous la forme de deux modèles image-vidéo, chacun capable de générer de 14 à 25 images à des vitesses comprises entre 3 et 30 images par seconde à une résolution de 576 × 1024. Il est capable d’effectuer une synthèse multi-vues à partir d’une seule image avec un réglage fin sur des ensembles de données multi-vues. « Au moment de leur sortie sous leur forme fondamentale, grâce à une évaluation externe, nous avons constaté que ces modèles surpassaient les principaux modèles fermés dans les études sur les préférences des utilisateurs », a déclaré la société, en la comparant aux plateformes de texte-vidéo Runway et Pika Labs.

À ce stade, la diffusion vidéo stable n’est disponible qu’à des fins de recherche, et non pour des applications réelles ou commerciales. Les utilisateurs potentiels peuvent s’inscrire sur une liste d’attente pour accéder à une « prochaine expérience Web dotée d’une interface texte-vidéo », a écrit Stability AI. L’outil présentera des applications potentielles dans des secteurs tels que la publicité, l’éducation, le divertissement et bien plus encore.

Les échantillons présentés dans la vidéo ci-dessus semblent être de relativement haute qualité, correspondant aux systèmes génératifs concurrents. Cependant, il présente certaines limites, écrit la société : il génère une vidéo relativement courte (moins de 4 secondes), manque de photoréalisme parfait, ne peut pas effectuer de mouvements de caméra sauf des panoramiques lents, n’a pas de contrôle de texte, ne peut pas générer de texte lisible et peut ne génère pas correctement les personnes et les visages.

L’outil a été formé sur un ensemble de données de millions de vidéos, puis affiné sur un ensemble plus petit, Stability AI disant seulement qu’il utilisait des vidéos accessibles au public à des fins de recherche. L’origine de l’ensemble de données est importante, étant donné que Stability AI a récemment été poursuivi en justice par Getty Images pour avoir gratté ses archives d’images.

La vidéo est un objectif clé de l’IA générative, en raison de son potentiel à simplifier la création de contenu. Cependant, il s’agit également d’un outil présentant le plus grand potentiel d’abus via des deepfakes, des violations de droits d’auteur et bien plus encore. Et contrairement à OpenAI avec son produit ChatGPT, Stability a eu moins de succès dans la commercialisation de son produit Stable Diffusion et a dépensé beaucoup d’argent. TechCrunch noté. Et la semaine dernière, le vice-président de l’audio chez Stability AI, Ed Newton-Rex, a démissionné en raison de l’utilisation de contenu protégé par le droit d’auteur pour former des modèles d’IA génératifs.

Source-145

- Advertisement -

Latest