Le nouveau générateur d’images IA d’OpenAI repousse les limites en matière de détail et de fidélité rapide

Mercredi, OpenAI a annoncé DALL-E 3, la dernière version de son modèle de synthèse d’images d’IA qui offre une intégration complète avec ChatGPT. DALL-E 3 restitue les images en suivant de près les descriptions complexes et en gérant la génération de texte dans l’image (comme les étiquettes et les panneaux), ce qui remettait en question les modèles précédents. Actuellement en aperçu de recherche, il sera disponible pour les clients ChatGPT Plus et Enterprise début octobre.

Comme son prédécesseur, DALLE-3 est un générateur de texte en image qui crée de nouvelles images basées sur des descriptions écrites appelées invites. Bien qu’OpenAI n’ait publié aucun détail technique sur DALL-E 3, le modèle d’IA au cœur des versions précédentes de DALL-E a été formé sur des millions d’images créées par des artistes et des photographes humains, dont certains sous licence de sites Web tels que Shutterstock. Il est probable que DALL-E 3 suive cette même formule, mais avec de nouvelles techniques de formation et plus de temps de formation informatique.

À en juger par les exemples fournis par OpenAI sur son blog promotionnel, DALL-E 3 semble être un modèle de synthèse d’images radicalement plus performant que tout autre modèle disponible en termes d’invites suivantes. Bien que les exemples d’OpenAI aient été sélectionnés pour leur efficacité, ils semblent suivre fidèlement les instructions rapides et restituer de manière convaincante les objets avec des déformations minimales par rapport aux modèles existants. Par rapport à DALL-E 2, OpenAI affirme que DALL-E 3 affine plus efficacement les petits détails comme les mains, créant des images attrayantes par défaut sans « aucun piratage ni ingénierie rapide requise ».

En comparaison, Midjourney, un modèle de synthèse d’images IA concurrent d’un autre fournisseur, restitue bien les détails photoréalistes, mais il nécessite encore beaucoup de bricolage contre-intuitif avec des invites pour obtenir un contrôle sur la sortie de l’image.

DALL-E 3 semble également gérer le texte dans les images d’une manière que son prédécesseur ne pouvait pas (certains modèles concurrents comme Stable Diffusion XL et DeepFloyd s’améliorent). Par exemple, une invite qui incluait les mots « Une illustration d’un avocat assis dans la chaise d’un thérapeute, disant « Je me sens si vide à l’intérieur » avec un trou de la taille d’une fosse en son centre » créait parfaitement un avocat de dessin animé avec la citation du personnage. encapsulé dans une bulle.

Notamment, OpenAI indique que DALL-E 3 a été « construit nativement » sur ChatGPT et arrivera en tant que fonctionnalité intégrée de ChatGPT Plus, permettant d’affiner la conversation sur les images de manière à utiliser l’assistant IA comme partenaire de brainstorming. Cela signifie également que ChatGPT sera capable de générer des images basées sur le contexte de la conversation en cours, ce qui pourrait conduire à de nouvelles fonctionnalités. L’assistant Bing Chat AI de Microsoft, également basé sur la technologie OpenAI, est capable de générer des images lors d’une conversation depuis mars.

Source-147