Google affirme que son IA text-to-image offre un « photoréalisme sans précédent »

a présenté un système d’intelligence artificielle capable de créer des images basées sur la saisie de texte. L’idée est que les utilisateurs peuvent entrer n’importe quel texte descriptif et l’IA le transformera en image. La société affirme que le , créé par l’équipe Brain de Google Research, offre « un degré de photoréalisme sans précédent et un niveau profond de compréhension du langage ».

Ce n’est pas la première fois que nous voyons des modèles d’IA comme celui-ci. (et ) ont généré des titres ainsi que des images en raison de la capacité avec laquelle il peut transformer le texte en visuels. La version de Google essaie cependant de créer des images plus réalistes.

Pour évaluer Imagen par rapport à d’autres modèles texte-image (dont DALL-E 2, VQ-GAN+CLIP et les modèles de diffusion latente), les chercheurs ont créé une référence appelée . C’est une liste de 200 invites de texte qui ont été entrées dans chaque modèle. Des évaluateurs humains ont été invités à évaluer chaque image. Ils « préfèrent Imagen aux autres modèles dans les comparaisons côte à côte, à la fois en termes de qualité d’échantillon et d’alignement image-texte », a déclaré Google.

Il convient de noter que les exemples présentés sur le sont organisés. En tant que telles, il peut s’agir des meilleures des meilleures images créées par le modèle. Ils peuvent ne pas refléter avec précision la plupart des visuels générés.

Comme DALL-E, Imagen n’est pas accessible au public. Google ne pense pas qu’il soit encore adapté à une utilisation par le grand public pour un certain nombre de raisons. D’une part, les modèles texte-image sont généralement formés sur de grands ensembles de données extraits du Web et non conservés, ce qui pose un certain nombre de problèmes.

« Bien que cette approche ait permis des avancées algorithmiques rapides ces dernières années, les ensembles de données de cette nature reflètent souvent des stéréotypes sociaux, des points de vue oppressifs et des associations désobligeantes ou autrement nuisibles à des groupes d’identité marginalisés », ont écrit les chercheurs. « Alors qu’un sous-ensemble de nos données de formation a été filtré pour supprimer le bruit et les contenus indésirables, tels que les images pornographiques et le langage toxique, nous avons également utilisé l’ensemble de données LAION-400M, qui est connu pour contenir un large éventail de contenus inappropriés, notamment des images pornographiques, des insultes racistes et les stéréotypes sociaux nuisibles. »

En conséquence, ont-ils déclaré, Imagen a hérité des « préjugés sociaux et des limites des grands modèles linguistiques » et peut dépeindre « des stéréotypes et une représentation nuisibles ». L’équipe a déclaré que les résultats préliminaires indiquaient que l’IA encode les préjugés sociaux, y compris une tendance à créer des images de personnes à la peau plus claire et à les placer dans certains rôles de genre stéréotypés. De plus, les chercheurs notent qu’il existe un risque d’utilisation abusive si Imagen était mis à la disposition du public tel quel.

Cependant, l’équipe pourrait éventuellement autoriser le public à saisir du texte dans une version du modèle pour générer ses propres images. « Dans les travaux futurs, nous explorerons un cadre d’externalisation responsable qui équilibre la valeur de l’audit externe avec les risques d’un libre accès illimité », ont écrit les chercheurs.

Vous pouvez cependant essayer Imagen de manière limitée. Sur , vous pouvez créer une description à l’aide de phrases présélectionnées. Les utilisateurs peuvent choisir si l’image doit être une photo ou une peinture à l’huile, le type d’animal affiché, les vêtements qu’ils portent, l’action qu’ils entreprennent et le décor. Donc, si vous avez toujours voulu voir une interprétation d’une peinture à l’huile représentant un panda flou portant des lunettes de soleil et une veste en cuir noire tout en faisant du skateboard sur une plage, voici votre chance.

Recherche Google

Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation.

Source-145