Au cours des deux dernières années, les générateurs d’images alimentés par l’IA se sont plus ou moins transformés en marchandises, grâce à la disponibilité généralisée de – et à la diminution des barrières techniques autour – de la technologie. Ils ont été déployés par pratiquement tous les principaux acteurs technologiques, y compris Google et Microsoft, ainsi que par d’innombrables startups cherchant à attraper une part du gâteau de plus en plus lucratif de l’IA générative.
Cela ne veut pas dire qu’ils sont encore cohérents en termes de performances, loin de là. Alors que la qualité des générateurs d’images s’est améliorée, il s’agit d’un progrès progressif, parfois angoissant.
Mais Meta prétend avoir fait une percée.
Aujourd’hui, Meta a annoncé CM3Leon (« caméléon » en leetspeak maladroit), un modèle d’IA qui, selon la société, atteint des performances de pointe pour la génération de texte en image. CM3Leon se distingue également en étant l’un des premiers générateurs d’images capables de générer des légendes pour les images, jetant les bases de modèles de compréhension d’image plus performants à l’avenir, déclare Meta.
« Avec les capacités de CM3Leon, les outils de génération d’images peuvent produire des images plus cohérentes qui suivent mieux les invites de saisie », a écrit Meta dans un article de blog partagé avec TechCrunch plus tôt cette semaine. « Nous pensons que les solides performances de CM3Leon dans une variété de tâches sont un pas vers la génération et la compréhension d’images plus fidèles. »
La plupart des générateurs d’images modernes, y compris DALL-E 2 d’OpenAI, Imagen et Stable Diffusion de Google, s’appuient sur un processus appelé diffusion pour créer de l’art. En diffusion, un modèle apprend à soustraire progressivement le bruit d’une image de départ entièrement constituée de bruit, en la rapprochant pas à pas de l’invite cible.
Les résultats sont impressionnants. Mais la diffusion est gourmande en calculs, ce qui la rend coûteuse à exploiter et suffisamment lente pour que la plupart des applications en temps réel ne soient pas pratiques.
CM3Leon est un modèle de transformateur, en revanche, tirant parti d’un mécanisme appelé « attention » pour peser la pertinence des données d’entrée telles que le texte ou les images. L’attention et les autres bizarreries architecturales des transformateurs peuvent augmenter la vitesse de formation des modèles et rendre les modèles plus facilement parallélisables. En d’autres termes, des transformateurs de plus en plus gros peuvent être entraînés avec des augmentations de calcul significatives mais non irréalisables.
Et CM3Leon est encore plus efficace que la plupart des transformateurs, affirme Meta, nécessitant cinq fois moins de calcul et un ensemble de données de formation plus petit que les méthodes précédentes basées sur les transformateurs.
Fait intéressant, OpenAI a exploré les transformateurs comme moyen de génération d’images il y a plusieurs années avec un modèle appelé Image GPT. Mais il a finalement abandonné l’idée au profit de la diffusion – et pourrait bientôt passer à la «cohérence».
Pour former CM3Leon, Meta a utilisé un ensemble de données de millions d’images sous licence de Shutterstock. La plus capable de plusieurs versions de CM3Leon que Meta a construit a 7 milliards de paramètres, plus de deux fois plus que DALL-E 2. (Les paramètres sont les parties du modèle apprises à partir des données de formation et définissent essentiellement la compétence du modèle sur un problème, comme générer du texte – ou, dans ce cas, des images.)
L’une des clés des meilleures performances de CM3Leon est une technique appelée réglage fin supervisé, ou SFT en abrégé. SFT a été utilisé pour former des modèles de génération de texte comme ChatGPT d’OpenAI avec un grand effet, mais Meta a émis l’hypothèse qu’il pourrait également être utile lorsqu’il est appliqué au domaine de l’image. En effet, le réglage des instructions a amélioré les performances de CM3Leon non seulement sur la génération d’images mais aussi sur l’écriture des légendes d’images, lui permettant de répondre aux questions sur les images et d’éditer les images en suivant les instructions textuelles (par exemple « changer la couleur du ciel en bleu vif »).
La plupart des générateurs d’images ont du mal avec des objets « complexes » et des invites de texte qui incluent trop de contraintes. Mais CM3Leon ne le fait pas – ou du moins, pas aussi souvent. Dans quelques exemples triés sur le volet, Meta a demandé à CM3Leon de générer des images à l’aide d’invites telles que « Un petit cactus portant un chapeau de paille et des lunettes de soleil au néon dans le désert du Sahara », « Une photo en gros plan d’une main humaine, un modèle de main », « Un raton laveur principal personnage dans un Anime se préparant à une bataille épique avec une épée de samouraï » et « Un panneau d’arrêt dans un style Fantasy avec le texte « 1991 ».
À des fins de comparaison, j’ai exécuté les mêmes invites via DALL-E 2. Certains des résultats étaient proches. Mais les images CM3Leon étaient généralement plus proches de l’invite et plus détaillées à mes yeux, la signalisation étant l’exemple le plus évident. (Jusqu’à récemment, les modèles de diffusion traitaient relativement mal le texte et l’anatomie humaine.)
CM3Leon peut également comprendre les instructions pour éditer des images existantes. Par exemple, étant donné l’invite « Générer une image de haute qualité d’une pièce qui contient un lavabo et un miroir » avec une bouteille à l’emplacement (199, 130) », le modèle peut générer quelque chose de visuellement cohérent et, comme le dit Meta, « approprié au contexte » – pièce, évier, miroir, bouteille et tout. DALL-E 2 ne parvient absolument pas à saisir les nuances d’invites comme celles-ci, omettant parfois complètement les objets spécifiés dans l’invite.
Et, bien sûr, contrairement à DALL-E 2, CM3Leon peut suivre une série d’invites pour générer des légendes courtes ou longues et répondre aux questions sur une image particulière. Dans ces domaines, le modèle a mieux performé que même les modèles de sous-titrage d’images spécialisés (par exemple Flamingo, OpenFlamingo) malgré la présence de moins de texte dans ses données de formation, affirme Meta.
Mais qu’en est-il du biais ? Il a été constaté que les modèles d’IA générative comme DALL-E 2 renforcent les préjugés sociétaux, après tout, générant des images de postes d’autorité – comme « PDG » ou « directeur » – qui représentent principalement des hommes blancs. Meta laisse cette question sans réponse, disant seulement que CM3Leon « peut refléter tous les biais présents dans les données de formation ».
« Alors que l’industrie de l’IA continue d’évoluer, les modèles génératifs comme CM3Leon deviennent de plus en plus sophistiqués », écrit la société. « Alors que l’industrie en est encore à ses débuts pour comprendre et relever ces défis, nous pensons que la transparence sera essentielle pour accélérer les progrès. »
Meta n’a pas dit si – ou quand – il prévoyait de sortir CM3Leon. Étant donné les controverses qui tourbillonnent autour des générateurs d’art open source, je ne retiendrais pas mon souffle.