Mercredi, OpenAI a annoncé DALL-E 3, la dernière version de son modèle de synthèse d’images d’IA qui offre une intégration complète avec ChatGPT. DALL-E 3 restitue les images en suivant de près les descriptions complexes et en gérant la génération de texte dans l’image (comme les étiquettes et les panneaux), ce qui remettait en question les modèles précédents. Actuellement en aperçu de recherche, il sera disponible pour les clients ChatGPT Plus et Enterprise début octobre.
Comme son prédécesseur, DALLE-3 est un générateur de texte en image qui crée de nouvelles images basées sur des descriptions écrites appelées invites. Bien qu’OpenAI n’ait publié aucun détail technique sur DALL-E 3, le modèle d’IA au cœur des versions précédentes de DALL-E a été formé sur des millions d’images créées par des artistes et des photographes humains, dont certains sous licence de sites Web tels que Shutterstock. Il est probable que DALL-E 3 suive cette même formule, mais avec de nouvelles techniques de formation et plus de temps de formation informatique.
À en juger par les exemples fournis par OpenAI sur son blog promotionnel, DALL-E 3 semble être un modèle de synthèse d’images radicalement plus performant que tout autre modèle disponible en termes d’invites suivantes. Bien que les exemples d’OpenAI aient été sélectionnés pour leur efficacité, ils semblent suivre fidèlement les instructions rapides et restituer de manière convaincante les objets avec des déformations minimales par rapport aux modèles existants. Par rapport à DALL-E 2, OpenAI affirme que DALL-E 3 affine plus efficacement les petits détails comme les mains, créant des images attrayantes par défaut sans « aucun piratage ni ingénierie rapide requise ».
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « Une illustration d’un avocat assis sur la chaise d’un thérapeute, disant ‘Je me sens tellement vide à l’intérieur’ avec un trou de la taille d’une fosse en son centre. Le thérapeute, une cuillère, gribouille des notes. »
OpenAI
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « Un vaste paysage entièrement composé de viandes diverses s’étend devant le spectateur. Des collines tendres et succulentes de rosbif, des pilons de poulet, des rivières de bacon et des rochers de jambon créent un décor surréaliste, scène pourtant appétissante. le ciel est orné de soleil de pepperoni et de nuages de salami.
OpenAI
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « Un diorama mini-carte d’un café orné de plantes d’intérieur. Des poutres en bois s’entrecroisent au-dessus et une station d’infusion froide se démarque avec de minuscules bouteilles et verres. »
OpenAI
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « Photographie rapprochée d’un bernard-l’ermite niché dans du sable humide, avec de l’écume de mer à proximité et les détails de sa coquille et la texture du sable accentués. »
OpenAI
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « Un art en papier représentant une fille faisant un doux câlin à son chat. Tous deux sont assis au milieu de plantes en pot, le chat ronronnant de contentement pendant que la fille sourit. La scène est ornée d’objets fabriqués à la main. fleurs et feuilles en papier.
OpenAI
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « Scène de pixel art de la Coit Tower debout sur Telegraph Hill, avec une vue panoramique sur la ville en contrebas et les oiseaux qui volent autour. »
OpenAI
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « De minuscules rois de la pomme de terre portant des couronnes majestueuses, assis sur des trônes, supervisant leur vaste royaume de la pomme de terre rempli de sujets et de châteaux de pommes de terre. »
OpenAI
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « Une illustration d’un cœur humain en verre translucide, debout sur un piédestal au milieu d’une mer agitée. Les rayons du soleil percent les nuages, illuminant le cœur, révélant un petit univers à l’intérieur. La citation « Trouvez l’univers en vous » est gravée en lettres grasses à l’horizon. »
OpenAI
-
Une image DALL-E 3 fournie par OpenAI avec l’invite : « Une femme d’âge moyen d’origine asiatique, ses cheveux noirs striés d’argent, semblent fracturés et éclatés, finement noyés dans une mer de porcelaine brisée. La porcelaine scintille d’éclaboussures de peinture. des motifs dans un mélange harmonieux de bleus, de verts, d’oranges et de rouges brillants et mats, capturant sa danse dans une juxtaposition surréaliste de mouvement et d’immobilité. Son teint, une teinte claire comme la porcelaine, ajoute une qualité presque mystique à sa forme. »
OpenAI
En comparaison, Midjourney, un modèle de synthèse d’images IA concurrent d’un autre fournisseur, restitue bien les détails photoréalistes, mais il nécessite encore beaucoup de bricolage contre-intuitif avec des invites pour obtenir un contrôle sur la sortie de l’image.
DALL-E 3 semble également gérer le texte dans les images d’une manière que son prédécesseur ne pouvait pas (certains modèles concurrents comme Stable Diffusion XL et DeepFloyd s’améliorent). Par exemple, une invite qui incluait les mots « Une illustration d’un avocat assis dans la chaise d’un thérapeute, disant « Je me sens si vide à l’intérieur » avec un trou de la taille d’une fosse en son centre » créait parfaitement un avocat de dessin animé avec la citation du personnage. encapsulé dans une bulle.
Notamment, OpenAI indique que DALL-E 3 a été « construit nativement » sur ChatGPT et arrivera en tant que fonctionnalité intégrée de ChatGPT Plus, permettant d’affiner la conversation sur les images de manière à utiliser l’assistant IA comme partenaire de brainstorming. Cela signifie également que ChatGPT sera capable de générer des images basées sur le contexte de la conversation en cours, ce qui pourrait conduire à de nouvelles fonctionnalités. L’assistant Bing Chat AI de Microsoft, également basé sur la technologie OpenAI, est capable de générer des images lors d’une conversation depuis mars.