Mercredi, Stability AI a publié des pondérations pour Stable Diffusion 3 Medium, un modèle de synthèse d’images IA qui transforme les invites textuelles en images générées par l’IA. Son arrivée a cependant été ridiculisée en ligne, car elle génère des images d’humains d’une manière qui semble être un pas en arrière par rapport aux autres modèles de synthèse d’images de pointe comme Midjourney ou DALL-E 3. En conséquence, il peut facilement produire des abominations visuelles sauvages et anatomiquement incorrectes.
Un fil de discussion sur Reddit intitulé « Cette version est-elle censée être une blague ? [SD3-2B] », détaille les échecs spectaculaires de SD3 Medium dans le rendu des humains, en particulier des membres humains comme les mains et les pieds. Un autre fil de discussion, intitulé « Pourquoi SD3 est-il si mauvais pour générer des filles allongées sur l’herbe? » montre des problèmes similaires, mais pour des corps humains entiers. .
Les mains constituent traditionnellement un défi pour les générateurs d’images d’IA en raison du manque de bons exemples dans les premiers ensembles de données de formation, mais plus récemment, plusieurs modèles de synthèse d’images semblent avoir surmonté le problème. En ce sens, SD3 semble être un énorme pas en arrière pour les passionnés de synthèse d’images qui se rassemblent sur Reddit, surtout par rapport aux récentes versions de stabilité comme SD XL Turbo en novembre.
« Il n’y a pas si longtemps, StableDiffusion était en concurrence avec Midjourney, maintenant cela ressemble à une blague en comparaison. Au moins nos ensembles de données sont sûrs et éthiques ! » » a écrit un utilisateur de Reddit.
Jusqu’à présent, les fans d’images d’IA attribuent les échecs anatomiques de Stable Diffusion 3 à l’insistance de Stability à filtrer le contenu pour adultes (souvent appelé contenu « NSFW ») à partir des données d’entraînement SD3 qui enseignent au modèle comment générer des images. « Croyez-le ou non, censurer lourdement un modèle élimine également l’anatomie humaine, alors… c’est ce qui s’est passé », a écrit un utilisateur de Reddit dans le fil de discussion.
Fondamentalement, chaque fois qu’un utilisateur se concentre sur un concept qui n’est pas bien représenté dans l’ensemble de données de formation du modèle d’IA, le modèle de synthèse d’images confabulera sa meilleure interprétation de ce que demande l’utilisateur. Et parfois, cela peut être complètement terrifiant.
La sortie de Stable Diffusion 2.0 en 2022 a souffert de problèmes similaires dans la bonne représentation des humains, et les chercheurs en IA ont rapidement découvert que la censure du contenu pour adultes contenant de la nudité pourrait gravement entraver la capacité d’un modèle d’IA à générer une anatomie humaine précise. À l’époque, Stability AI a inversé son cap avec SD 2.1 et SD XL, retrouvant certaines capacités perdues en filtrant fortement le contenu NSFW.
Un autre problème qui peut survenir lors de la pré-formation du modèle est que parfois le filtre NSFW utilisé par les chercheurs pour supprimer les images d’adultes de l’ensemble de données est trop pointilleux, supprimant accidentellement des images qui pourraient ne pas être offensantes et privant le modèle de représentations humaines dans certaines situations. « [SD3] fonctionne bien tant qu’il n’y a pas d’humains dans l’image, je pense que leur filtre nsfw amélioré pour filtrer les données d’entraînement a décidé que tout humanoïde est nsfw », a écrit un Redditor sur le sujet.
À l’aide d’une démo en ligne gratuite de SD3 sur Hugging Face, nous avons exécuté des invites et constaté des résultats similaires à ceux rapportés par d’autres. Par exemple, l’invite « un homme montrant ses mains » renvoyait l’image d’un homme tenant deux mains géantes vers l’arrière, bien que chaque main ait au moins cinq doigts.
Les problèmes de stabilité sont profonds
Stability a annoncé Stable Diffusion 3 en février et la société a prévu de le rendre disponible en différentes tailles de modèles. La version d’aujourd’hui concerne la version « Medium », qui est un modèle de 2 milliards de paramètres. En plus des poids disponibles sur Hugging Face, ils sont également disponibles pour expérimentation via la plateforme de stabilité de l’entreprise. Les poids sont disponibles en téléchargement et utilisés gratuitement sous une licence non commerciale uniquement.
Peu de temps après son annonce en février, des retards dans la sortie des poids du modèle SD3 ont inspiré des rumeurs selon lesquelles la sortie était retardée en raison de problèmes techniques ou d’une mauvaise gestion. Stabilité AI en tant qu’entreprise est tombée en vrille récemment avec la démission de son fondateur et PDG, Emad Mostaque, en mars, puis une série de licenciements. Juste avant cela, trois ingénieurs clés – Robin Rombach, Andreas Blattmann et Dominik Lorenz – ont quitté l’entreprise. Et ses problèmes remontent encore plus loin, puisque la nouvelle de la situation financière désastreuse de l’entreprise persiste depuis 2023.
Pour certains fans de Stable Diffusion, les échecs de Stable Diffusion 3 Medium sont une manifestation visuelle de la mauvaise gestion de l’entreprise et un signe évident de l’effondrement des choses. Bien que la société n’ait pas déposé le bilan, certains utilisateurs ont fait de sombres blagues sur cette possibilité après avoir vu SD3 Medium :
« Je suppose que maintenant ils peuvent faire faillite de manière sûre et éthique. [sic] façon, après tout. »