L’IA générative est assez impressionnante en termes de fidélité ces jours-ci, comme le suggèrent des mèmes viraux comme Balenciaga Pope. Les derniers systèmes peuvent évoquer des paysages allant des horizons urbains aux cafés, créant des images qui semblent étonnamment réalistes, du moins à première vue.
Mais l’une des faiblesses de longue date des modèles d’IA text-to-image est, ironiquement, le texte. Même les meilleurs modèles ont du mal à générer des images avec des logos lisibles, beaucoup moins de texte, de calligraphie ou de polices.
Mais cela pourrait changer.
La semaine dernière, DeepFloyd, un groupe de recherche soutenu par Stability AI, a dévoilé DeepFloyd IF, un modèle texte-image capable d’intégrer « intelligemment » du texte dans des images. Formé sur un ensemble de données de plus d’un milliard d’images et de texte, DeepFloyd IF, qui nécessite un GPU avec au moins 16 Go de RAM pour fonctionner, peut créer une image à partir d’une invite comme « un ours en peluche portant une chemise qui lit » Deep Floyd » ” – éventuellement dans une gamme de styles.
DeepFloyd IF est disponible en open source, sous licence d’une manière qui interdit l’utilisation commerciale – pour l’instant. La restriction était probablement motivée par le statut juridique précaire actuel des modèles d’art de l’IA générative. Plusieurs vendeurs de modèles commerciaux sont sous le feu des artistes qui prétendent que les vendeurs profitent de leur travail sans les rémunérer en grattant ce travail sur le Web sans autorisation.
Mais NightCafe, la plateforme d’art génératif, a obtenu un accès anticipé à DeepFloyd IF.
Le PDG de NightCafe, Angus Russell, a expliqué à TechCrunch ce qui différencie DeepFloyd IF des autres modèles de texte en image et pourquoi cela pourrait représenter une avancée significative pour l’IA générative.
Selon Russell, la conception de DeepFloyd IF a été fortement inspirée du modèle Imagen de Google, qui n’a jamais été rendu public. Contrairement à des modèles tels que DALL-E 2 et Stable Diffusion d’OpenAI, DeepFloyd IF utilise plusieurs processus différents empilés dans une architecture modulaire pour générer des images.
Avec un modèle de diffusion typique, le modèle apprend à soustraire progressivement le bruit d’une image de départ composée presque entièrement de bruit, en la rapprochant pas à pas de l’invite cible. DeepFloyd IF effectue la diffusion non pas une mais plusieurs fois, générant une image de 64x64px puis en mettant à l’échelle l’image à 256x256px et enfin à 1024x1024px.
Pourquoi le besoin de plusieurs étapes de diffusion ? DeepFloyd IF fonctionne directement avec les pixels, a expliqué Russell. Les modèles de diffusion sont pour la plupart des modèles de diffusion latente, ce qui signifie essentiellement qu’ils fonctionnent dans un espace de dimension inférieure qui représente beaucoup plus de pixels mais de manière moins précise.
L’autre différence clé entre DeepFloyd IF et des modèles tels que Stable Diffusion et DALL-E 2 est que le premier utilise un grand modèle de langage pour comprendre et représenter les invites sous forme de vecteur, une structure de données de base. Due à la taille du grand modèle de langage intégré dans l’architecture de DeepFloyd IF, le modèle est particulièrement efficace pour comprendre les invites complexes et même les relations spatiales décrites dans les invites (par exemple « un cube rouge au-dessus d’une sphère rose »).
« Il est également très efficace pour générer du texte lisible et correctement orthographié dans les images, et peut même comprendre les invites dans plusieurs langues », a ajouté Russell. « Parmi ces capacités, la capacité à générer du texte lisible dans les images est peut-être la plus grande percée permettant à DeepFloyd IF de se démarquer des autres algorithmes. »
Parce que DeepFloyd IF peut assez bien générer du texte dans les images, Russell s’attend à ce qu’il débloque une vague de nouvelles possibilités d’art génératif – pensez à la conception de logo, à la conception Web, aux affiches, aux panneaux d’affichage et même aux mèmes. Le modèle devrait également être bien meilleur pour générer des choses comme les mains, dit-il, et – parce qu’il peut comprendre les invites dans d’autres langues – il pourrait également être capable de créer du texte dans ces langues.
« Les utilisateurs de NightCafe sont enthousiasmés par DeepFloyd IF en grande partie à cause des possibilités qui sont déverrouillées en générant du texte dans les images », a déclaré Russell. « Stable Diffusion XL a été le premier algorithme open source à faire des progrès dans la génération de texte – il peut générer avec précision un ou deux mots quelques du temps – mais ce n’est toujours pas assez bon pour les cas d’utilisation où le texte est important.
Cela ne veut pas dire que DeepFloyd IF est le Saint Graal des modèles texte-image. Russell note que le modèle de base dne génère pas d’images aussi esthétiquement plaisant comme certains modèles de diffusion, bien qu’il s’attende à ce qu’un réglage fin améliore cela.
Mais la plus grande question, pour moi, est de savoir dans quelle mesure DeepFloyd IF souffre des mêmes défauts que ses frères IA génératifs.
Un nombre croissant de recherches a révélé des stéréotypes raciaux, ethniques, sexistes et autres dans l’IA génératrice d’images, y compris Stable Diffusion. Ce mois-ci, des chercheurs de la start-up d’IA Hugging Face et de l’Université de Leipzig ont publié un outil démontrant que des modèles tels que Stable Diffusion et DALL-E 2 d’OpenAI ont tendance à produire des images de personnes qui semblent blanches et masculines, en particulier lorsqu’on leur demande de représenter des personnes en position d’autorité. .
L’équipe DeepFloyd, à leur crédit, note le potentiel de biais dans les petits caractères accompagnant DeepFloyd IF :
Les textes et les images provenant de communautés et de cultures qui utilisent d’autres langues risquent d’être insuffisamment pris en compte. Cela affecte la sortie globale du modèle, car les cultures blanche et occidentale sont souvent définies par défaut.
En dehors de cela, DeepFloyd IF, comme d’autres modèles génératifs open source, pourrait être utilisé à des fins nuisibles, comme générer des deepfakes de célébrités pornographiques et des représentations graphiques de la violence. Sur la page Web officielle de DeepFloyd IF, l’équipe DeepFloyd déclare avoir utilisé des « filtres personnalisés » pour supprimer les filigranes, « NSFW » et « autres contenus inappropriés » des données de formation.
Mais on ne sait pas exactement quel contenu a été supprimé – et combien aurait pu être manqué. En fin de compte, le temps nous le dira.