Mardi, Stability AI a lancé Stable Diffusion XL Turbo, un modèle de synthèse d’images d’IA capable de générer rapidement des images basées sur une invite écrite. Si rapidement, en fait, que l’entreprise le présente comme une génération d’images « en temps réel », car elle peut également transformer rapidement des images provenant d’une source, telle qu’une webcam.
La principale innovation de SDXL Turbo réside dans sa capacité à produire des images en une seule étape, une réduction significative par rapport aux 20 à 50 étapes requises par son prédécesseur. Stability attribue ce gain d’efficacité à une technique qu’elle appelle distillation par diffusion contradictoire (ADD). ADD utilise la distillation de scores, où le modèle apprend des modèles de synthèse d’images existants, et la perte contradictoire, qui améliore la capacité du modèle à différencier les images réelles et générées, améliorant ainsi le réalisme de la sortie.
Stability a détaillé le fonctionnement interne du modèle dans un document de recherche publié mardi et axé sur la technique ADD. L’un des avantages revendiqués de SDXL Turbo est sa similitude avec les réseaux contradictoires génératifs (GAN), notamment dans la production de sorties d’images en une seule étape.
Les images SDXL Turbo ne sont pas aussi détaillées que les images SDXL produites avec un nombre de pas plus élevé, elles ne sont donc pas considérées comme un remplacement du modèle précédent. Mais pour les économies de vitesse impliquées, les résultats sont époustouflants.
Pour l’essayer, nous avons exécuté SDXL Turbo localement sur un Nvidia RTX 3060 en utilisant Automatic1111 (les poids chutent tout comme les poids SDXL), et il peut générer une image 1024×1024 en 3 étapes en 4 secondes environ, contre 26,4 secondes pour un Image SDXL en 20 étapes avec des détails similaires. Les images plus petites sont générées beaucoup plus rapidement (moins d’une seconde pour 512 × 768), et bien sûr, une carte graphique plus robuste telle qu’une RTX 3090 ou 4090 permettra également des temps de génération beaucoup plus rapides. Contrairement au marketing de Stability, nous avons constaté que les images SDXL Turbo présentent les meilleurs détails, soit environ 3 à 5 étapes par image.
C’est dans la vitesse de génération de SDXL Turbo qu’intervient l’affirmation « en temps réel ». Stability AI indique que sur un Nvidia A100 (un puissant GPU optimisé par l’IA), le modèle peut générer une image 512 × 512 en 207 ms, encodage compris, un une seule étape de débruitage et de décodage. De telles vitesses pourraient conduire à des filtres vidéo génératifs d’IA en temps réel ou à une génération expérimentale de graphiques de jeux vidéo, si les problèmes de cohérence peuvent être résolus. Dans ce contexte, la cohérence signifie conserver le même sujet entre plusieurs trames ou générations.
Actuellement, SDXL Turbo est disponible sous une licence de recherche non commerciale, limitant son utilisation à des fins personnelles et non commerciales. Cette décision a déjà suscité quelques critiques au sein de la communauté Stable Diffusion, mais Stability AI s’est montré ouvert aux applications commerciales et invite les parties intéressées à nous contacter pour plus d’informations.
Pendant ce temps, Stability AI elle-même a été confrontée à des problèmes de gestion interne, un investisseur ayant récemment exhorté le PDG Emad Mostaque à démissionner. La direction de Stability aurait exploré une vente potentielle de l’entreprise à une entité plus grande, mais cela n’a pas ralenti la cadence de sortie de Stability. La semaine dernière, la société a annoncé Stable Video Diffusion, qui peut transformer des images fixes en courts clips vidéo.
Stability AI propose une démonstration bêta des capacités de SDXL Turbo sur sa plateforme d’édition d’images, Clipdrop. Vous pouvez également expérimenter gratuitement une démo en direct non officielle sur Hugging Face. Évidemment, toutes les mises en garde habituelles s’appliquent, y compris l’absence de provenance des données de formation et le risque d’utilisation abusive. Même avec ces problèmes non résolus, les progrès technologiques en matière de synthèse d’images par l’IA ne ralentissent certainement pas.