Jeudi, Stability AI a annoncé Stable Diffusion 3, un modèle de synthèse d’images de nouvelle génération à poids ouverts. Il suit ses prédécesseurs en générant des images détaillées et multi-sujets avec une qualité et une précision améliorées dans la génération de texte. La brève annonce n’était pas accompagnée d’une démo publique, mais Stability ouvre aujourd’hui une liste d’attente pour ceux qui souhaitent l’essayer.
Stability indique que sa famille de modèles Stable Diffusion 3 (qui prend des descriptions textuelles appelées « invites » et les transforme en images correspondantes) a une taille allant de 800 millions à 8 milliards de paramètres. La gamme de tailles permet à différentes versions du modèle de s’exécuter localement sur une variété d’appareils, des smartphones aux serveurs. La taille des paramètres correspond à peu près à la capacité du modèle en termes de quantité de détails qu’il peut générer. Les modèles plus grands nécessitent également plus de VRAM sur les accélérateurs GPU pour fonctionner.
Depuis 2022, nous avons vu Stability lancer une progression de modèles de génération d’images IA : Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo et maintenant 3. Stability s’est fait un nom en offrant une alternative plus ouverte. aux modèles de synthèse d’images propriétaires comme le DALL-E 3 d’OpenAI, mais non sans controverse en raison de l’utilisation de données de formation protégées par le droit d’auteur, des biais et du potentiel d’abus. (Cela a conduit à des poursuites qui n’ont pas été résolues.) Les modèles de diffusion stable ont des poids ouverts et sont disponibles à la source, ce qui signifie que les modèles peuvent être exécutés localement et ajustés pour modifier leurs résultats.
-
Stable Diffusion 3 génération avec l’invite : illustration d’anime épique d’un sorcier au sommet d’une montagne la nuit jetant un sort cosmique dans le ciel sombre qui dit « Stable Diffusion 3 » fait d’énergie colorée.
-
Une image générée par l’IA d’une grand-mère portant un sweat-shirt « Go big or go home » générée par Stable Diffusion 3.
-
Stable Diffusion 3 génération avec l’invite : Trois bouteilles en verre transparent sur une table en bois. Celui de gauche a un liquide rouge et le chiffre 1. Celui du milieu a un liquide bleu et le chiffre 2. Celui de droite a un liquide vert et le chiffre 3.
-
Une image générée par l’IA créée par Stable Diffusion 3.
-
Stable Diffusion 3 génération avec l’invite : Un cheval en équilibre au sommet d’une balle colorée dans un champ avec de l’herbe verte et une montagne en arrière-plan.
-
Stable Diffusion 3 génération avec l’invite : Nature morte maussade de citrouilles assorties.
-
Stable Diffusion 3 génération avec l’invite : une peinture d’un astronaute chevauchant un cochon portant un tutu tenant un parapluie rose, au sol à côté du cochon se trouve un rouge-gorge portant un haut-de-forme, dans le coin se trouvent les mots « diffusion stable ». »
-
Stable Diffusion 3 génération avec l’invite : posé sur la table de la cuisine se trouve un tissu brodé avec le texte « bonne nuit » et un bébé tigre brodé. À côté du tissu se trouve une bougie allumée. L’éclairage est faible et dramatique.
-
Stable Diffusion 3 génération avec le message : Photo d’un ordinateur de bureau des années 90 sur un bureau, sur l’écran de l’ordinateur il est écrit « bienvenue ». Sur le mur en fond on voit de beaux graffitis avec le texte « SD3 » en très grand sur le mur.
En ce qui concerne les améliorations technologiques, Emad Mostaque, PDG de Stability, a écrit sur X : « Cela utilise un nouveau type de transformateur de diffusion (similaire à Sora) combiné à une adaptation de flux et à d’autres améliorations. Cela profite des améliorations du transformateur et peut non seulement évoluer davantage. mais acceptez les entrées multimodales.
Comme l’a dit Mostaque, la famille Stable Diffusion 3 utilise une architecture de transformateur de diffusion, qui est une nouvelle façon de créer des images avec l’IA qui remplace les blocs de construction d’images habituels (tels que l’architecture U-Net) par un système qui fonctionne sur de petits morceaux de l’image. La méthode s’inspire des transformateurs, qui sont efficaces dans la gestion des modèles et des séquences. Cette approche est non seulement efficace, mais produit également des images de meilleure qualité.
Stable Diffusion 3 utilise également la « correspondance de flux », une technique permettant de créer des modèles d’IA capables de générer des images en apprenant à passer en douceur d’un bruit aléatoire à une image structurée. Il le fait sans avoir besoin de simuler chaque étape du processus, mais en se concentrant plutôt sur la direction ou le flux global que la création de l’image doit suivre.
![Une comparaison des sorties entre DALL-E 3 d'OpenAI et Stable Diffusion 3 avec l'invite, "Photo de nuit d'une voiture de sport avec le texte "SD3" sur le côté, la voiture roule à grande vitesse sur une piste de course, un énorme panneau routier avec le texte « plus vite »."](https://nvts-gb-ldn-actualnewsmagazine.actualnewsmagazine.com/wp-content/uploads/2024/02/1708811350_689_Stability-annonce-Stable-Diffusion-3-un-generateur-dimages-IA-de.jpg)
Nous n’avons pas accès à Stable Diffusion 3 (SD3), mais d’après les échantillons que nous avons trouvés publiés sur le site Web de Stability et les comptes de réseaux sociaux associés, les générations semblent à peu près comparables à d’autres modèles de synthèse d’images de pointe pour le moment, y compris DALL-E 3 susmentionné, Adobe Firefly, Imagine with Meta AI, Midjourney et Google Imagen.
SD3 semble très bien gérer la génération de texte dans les exemples fournis par d’autres, qui sont potentiellement triés sur le volet. La génération de texte était une faiblesse particulière des modèles de synthèse d’images précédents, donc une amélioration de cette capacité dans un modèle gratuit est un gros problème. De plus, la fidélité des invites (à quel point elle suit les descriptions dans les invites) semble être similaire à DALL-E 3, mais nous ne l’avons pas encore testé nous-mêmes.
Bien que Stable Diffusion 3 ne soit pas largement disponible, Stability indique qu’une fois les tests terminés, ses poids pourront être téléchargés et exécutés gratuitement localement. « Cette phase de prévisualisation, comme pour les modèles précédents », écrit Stability, « est cruciale pour recueillir des informations permettant d’améliorer ses performances et sa sécurité avant une version ouverte. »
Stability a récemment expérimenté diverses architectures de synthèse d’images. Outre SDXL et SDXL Turbo, la semaine dernière, la société a annoncé Stable Cascade, qui utilise un processus en trois étapes pour la synthèse texte-image.
Image de la liste par Emad Mostaque (Stability AI)