Stability AI tente de garder une longueur d’avance avec un nouveau modèle d’IA générateur d’images

Le dernier modèle de Stability AI pour la génération d’images est Cascade stable promet d’être plus rapide et plus puissant que son prédécesseur leader du secteur, Stable Diffusion, qui constitue la base de nombreux autres outils d’IA de génération de texte en image.

Stable Cascade peut générer des photos et donner des variations de l’image exacte qu’elle a créée, ou essayer d’augmenter la résolution d’une image existante. D’autres fonctionnalités d’édition de texte en image incluent l’inpainting et l’outpainting, où le modèle ne modifiera qu’une partie spécifique de l’image, ainsi que Canny Edge, où les utilisateurs peuvent créer une nouvelle photo simplement en utilisant les bords d’une image existante.

Images en cascade stables générées à partir de l’invite « Photo cinématographique d’un pingouin anthropomorphe assis dans un café en train de lire un livre et de prendre un café ».
Image : IA de stabilité

Le nouveau modèle est disponible sur GitHub destiné aux chercheurs mais pas à un usage commercial, et apporte plus d’options même si des entreprises comme Google et même Apple publient leurs propres modèles de génération d’images.

Contrairement aux modèles phares de Stable Diffusion de Stability, Stable Cascade n’est pas un grand modèle de langage : il s’agit de trois modèles différents qui s’appuient sur le Architecture würstchenLa première étape, l’étape C, compresse les invites de texte en latents (ou morceaux de code plus petits) qui sont ensuite transmis aux étapes A et B pour décoder la requête.

Comparaison du temps d’inférence Stable Cascade par rapport à d’autres modèles
IA de stabilité

Diviser les requêtes en bits plus petits compresse la requête pour nécessiter moins de mémoire (et moins d’heures de formation sur ces GPU difficiles à trouver) et s’exécuter plus rapidement. tout en étant plus performant « à la fois en termes d’alignement rapide et de qualité esthétique ». Il a fallu environ 10 secondes pour créer une image, contre 22 secondes pour le modèle SDXL utilisé actuellement.

Stability AI a contribué à populariser la méthode de diffusion stable et a également fait l’objet de plusieurs poursuites alléguant que Stable Diffusion s’est entraînée sur des données protégées par le droit d’auteur sans l’autorisation des titulaires de droits – un procès britannique intenté par Getty Images contre Stability AI devrait être jugé en décembre. Elle a commencé à proposer des licences commerciales par le biais d’un abonnement en décembre, ce qui, selon la société, était nécessaire pour l’aider à financer ses recherches.

source site-132