FLUX : Ce nouveau générateur d’images IA est étonnamment doué pour créer des mains humaines

Agrandir / Image générée par l’IA par le développeur FLUX.1 : « Une belle reine de l’univers levant les mains, le visage en arrière-plan. »

FLUX.1

Jeudi, la start-up spécialisée en IA Black Forest Labs a annoncé le lancement de sa société et la sortie de sa première suite de modèles d’IA de conversion de texte en image, appelée FLUX.1. La société allemande, fondée par des chercheurs qui ont développé la technologie à l’origine de la diffusion stable et inventé la technique de diffusion latente, vise à créer une IA générative avancée pour les images et les vidéos.

Le lancement de FLUX.1 intervient environ sept semaines après la sortie en difficulté de Stable Diffusion 3 Medium par Stability AI à la mi-juin. L’offre de Stability AI a fait l’objet de nombreuses critiques parmi les amateurs de synthèse d’images pour ses faibles performances dans la génération d’anatomie humaine, les utilisateurs partageant des exemples de membres et de corps déformés sur les réseaux sociaux. Ce lancement problématique a suivi le départ antérieur de trois ingénieurs clés de Stability AI – Robin Rombach, Andreas Blattmann et Dominik Lorenz – qui ont ensuite fondé Black Forest Labs avec le co-développeur de diffusion latente Patrick Esser et d’autres.

Black Forest Labs a lancé trois modèles de conversion de texte en image FLUX.1 : une version commerciale haut de gamme « pro », une version milieu de gamme « dev » avec des poids ouverts pour une utilisation non commerciale et une version « schnell » à poids ouverts plus rapide (« schnell » signifie rapide ou rapide en allemand). Black Forest Labs affirme que ses modèles surpassent les options existantes comme Midjourney et DALL-E dans des domaines tels que la qualité d’image et le respect des invites de texte.

D’après notre expérience, les sorties des deux modèles FLUX.1 haut de gamme sont généralement comparables à celles du DALL-E 3 d’OpenAI en termes de fidélité rapide, avec un photoréalisme qui semble proche de celui de Midjourney 6. Elles représentent une amélioration significative par rapport à Stable Diffusion XL, la dernière version majeure de l’équipe sous Stability (si vous ne comptez pas SDXL Turbo).

Les modèles FLUX.1 utilisent ce que l’entreprise appelle une « architecture hybride » combinant des techniques de transformateur et de diffusion, avec une mise à l’échelle allant jusqu’à 12 milliards de paramètres. Black Forest Labs a déclaré qu’il améliore les modèles de diffusion précédents en intégrant la correspondance des flux et d’autres optimisations.

FLUX.1 semble compétent pour générer des mains humaines, ce qui était un point faible des modèles de synthèse d’images antérieurs comme Stable Diffusion 1.5 en raison d’un manque d’images d’entraînement centrées sur les mains. Depuis ces premiers jours, d’autres générateurs d’images d’IA comme Midjourney ont également maîtrisé les mains, mais il est remarquable de voir un modèle à poids ouvert qui restitue les mains de manière relativement précise dans diverses poses.

Nous avons téléchargé le fichier de poids sur le modèle de développement FLUX.1 depuis GitHub, mais à 23 Go, il ne rentrera pas dans la VRAM de 12 Go de notre carte RTX 3060, il aura donc besoin d’une quantification pour fonctionner localement (en réduisant sa taille), ce qui, selon certaines personnes (par le biais de discussions sur Reddit), aurait déjà réussi.

Au lieu de cela, nous avons expérimenté les modèles FLUX.1 sur les plateformes d’hébergement cloud d’IA Fal et Replicate, dont l’utilisation est payante, bien que Fal offre des crédits gratuits pour démarrer.

La Forêt-Noire regarde vers l’avenir

Black Forest Labs est peut-être une jeune entreprise, mais elle attire déjà des fonds d’investisseurs. Elle a récemment clôturé un tour de financement de 31 millions de dollars mené par Andreessen Horowitz, avec des investissements supplémentaires de General Catalyst et MätchVC. La société a également fait appel à des conseillers de renom, dont Michael Ovitz, directeur du divertissement et ancien président de Disney, et Matthias Bethge, chercheur en intelligence artificielle.

« Nous pensons que l’IA générative sera un élément fondamental de toutes les technologies futures », a déclaré l’entreprise dans son communiqué. « En mettant nos modèles à la disposition d’un large public, nous souhaitons faire profiter tout le monde de ses avantages, éduquer le public et renforcer la confiance dans la sécurité de ces modèles. »

En parlant de « confiance et de sécurité », la société n’a pas mentionné où elle avait obtenu les données de formation qui ont appris aux modèles FLUX.1 à générer des images. À en juger par les résultats que nous avons pu produire avec le modèle qui comprenait des représentations de personnages protégés par le droit d’auteur, Black Forest Labs a probablement utilisé une énorme récupération d’images non autorisées sur Internet, peut-être collectée par LAION, une organisation qui a collecté les ensembles de données qui ont entraîné Stable Diffusion. Il s’agit là de spéculations à ce stade. Bien que la réussite technologique sous-jacente de FLUX.1 soit remarquable, il semble probable que l’équipe joue avec l’éthique du scraping d’images « à usage équitable », un peu comme l’a fait Stability AI. Cette pratique pourrait éventuellement entraîner des poursuites judiciaires comme celles intentées contre Stability AI.

Bien que la génération de texte en image soit actuellement la priorité de Black Forest, l’entreprise prévoit de se lancer dans la génération de vidéos par la suite. FLUX.1 servira de base à un nouveau modèle de conversion de texte en vidéo en cours de développement, qui rivalisera avec Sora d’OpenAI, Gen-3 Alpha de Runway et Kling de Kuaishou dans un concours visant à déformer la réalité des médias à la demande. « Nos modèles vidéo permettront une création et un montage précis en haute définition et à une vitesse sans précédent », affirme Black Forest dans son communiqué.

Source-147