Le DALL-E 2 d’OpenAI produit des images fantastiques de presque tout ce que vous pouvez imaginer

En janvier 2021, le consortium OpenAI – fondé par Elon Musk et soutenu financièrement par Microsoft – a dévoilé son projet le plus ambitieux à ce jour, le système d’apprentissage automatique DALL-E. Cette IA multimodale ingénieuse était capable de générer des images (quoique plutôt caricaturales) basées sur les attributs décrits par un utilisateur – pensez « un chat fait de sushi » ou « une radiographie d’un Capybara assis dans une forêt ». Mercredi, le consortium a dévoilé la prochaine itération de DALL-E qui offre une résolution plus élevée et une latence plus faible que l’original.

OpenAI

Le premier DALL-E (un portemanteau de « Dali », comme dans l’artiste, et « WALL-E », comme dans le personnage animé de Disney) pourrait générer des images ainsi que combiner plusieurs images dans un collage, fournir différents angles de perspective , et même déduire des éléments d’une image, tels que des effets d’ombre, à partir de la description écrite.

« Contrairement à un moteur de rendu 3D, dont les entrées doivent être spécifiées sans ambiguïté et dans tous les détails, DALL·E est souvent capable de ‘remplir les blancs’ lorsque la légende implique que l’image doit contenir un certain détail qui n’est pas explicitement indiqué. » l’équipe OpenAI a écrit en 2021.

Photographie de film macro 35 mm d'une grande famille de souris portant des chapeaux confortables près de la cheminée.

OpenAI

DALL-E n’a jamais été destiné à être un produit commercial et était donc quelque peu limité dans ses capacités étant donné que l’équipe OpenAI se concentre sur lui en tant qu’outil de recherche, il a également été intentionnellement limité pour éviter une situation Tay-esque ou le système étant exploité pour générer désinformation. Sa suite a été protégée de la même manière avec des images potentiellement répréhensibles supprimées de manière préventive de ses données de formation et un filigrane indiquant qu’il s’agit d’une image générée par l’IA automatiquement appliquée. De plus, le système empêche activement les utilisateurs de créer des images basées sur des noms spécifiques. Désolé, les gens se demandent à quoi ressemblerait « Christopher Walken mangeant un churro dans la chapelle Sixtine ».

DALL-E 2, qui utilise le système de reconnaissance d’images CLIP d’OpenAI, s’appuie sur ces capacités de génération d’images. Les utilisateurs peuvent désormais sélectionner et modifier des zones spécifiques d’images existantes, ajouter ou supprimer des éléments avec leurs ombres, fusionner deux images en un seul collage et générer des variations d’une image existante. De plus, les images de sortie sont des carrés de 1024px, contre les avatars de 256px générés par la version originale. Le CLIP d’OpenAI a été conçu pour regarder une image donnée et résumer son contenu d’une manière compréhensible pour les humains. Le consortium a inversé ce processus, en construisant une image à partir de son résumé, dans son travail avec le nouveau système.

Des ours en peluche mélangeant des produits chimiques étincelants comme des savants fous.

OpenAI

« DALL-E 1 vient de prendre notre approche GPT-3 du langage et de l’appliquer pour produire une image : nous avons compressé des images en une série de mots et nous venons d’apprendre à prédire ce qui va suivre », a déclaré Prafulla Dhariwal, chercheur à OpenAI. Bord.

Contrairement à la première, avec laquelle tout le monde peut jouer sur le site Web d’OpenAI, cette nouvelle version n’est actuellement disponible que pour être testée par des partenaires approuvés qui sont eux-mêmes limités dans ce qu’ils peuvent télécharger ou générer avec. Seules les sources favorables à la famille peuvent être utilisées et tout ce qui implique de la nudité, de l’obscénité, une idéologie extrémiste ou « des conspirations majeures ou des événements liés à des événements géopolitiques majeurs en cours » est exclu. Encore une fois, désolé pour les gens qui espèrent générer « Donald Trump chevauchant une Nancy Pelosi nue et atteinte de COVID comme un cheval devant le Sénat américain le 6 janvier tout en faisant un salut nazi ».

Une photo d'un astronaute à cheval.

OpenAI

Il est également interdit à la génération actuelle de testeurs d’exporter leurs travaux générés vers une plate-forme tierce, bien qu’OpenAI envisage d’ajouter les capacités de DALL-E 2 à son API à l’avenir. Si vous souhaitez essayer DALL-E 2 par vous-même, vous pouvez vous inscrire sur la liste d’attente sur le site Web d’OpenAI.

Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation.

Source-145