Les programmes d’intelligence artificielle text-to-image ne sont pas quelque chose de nouveau. En effet, les réseaux de neurones existants comme DALL-E nous ont impressionnés par leur capacité à générer des images simples et photoréalistes à partir de phrases brèves mais descriptives.
Mais cette semaine, j’ai été présenté à Imagen (s’ouvre dans un nouvel onglet). Développé par la Brain Team de Google Research, Imagen est une IA similaire à celle de DALL-E et LDM. Cependant, l’objectif de Brain Team avec Imagen est de générer des images avec un plus grand niveau de précision et de fidélité, en utilisant la même méthode de phrases courtes et descriptives pour les créer.
Un exemple de telles phrases serait – selon les démonstrations sur le site Web d’Imagen – « Une photo d’un panda flou portant un chapeau de cow-boy et une veste en cuir noire faisant du vélo au sommet d’une montagne. » C’est assez long, mais la phrase est structurée de telle manière que l’IA peut identifier chaque élément comme ses propres critères.
L’IA analyse ensuite chaque segment de la phrase comme un bloc d’informations assimilable et tente de produire une image aussi proche que possible de cette phrase. Et à moins d’étranges ou de bizarreries ici et là, Imagen peut le faire avec des résultats étonnamment rapides et précis.
Un peu trop sain ?
Si vous avez vérifié Imagen ou d’autres réseaux de neurones par vous-même, vous avez probablement remarqué l’attention écrasante sur quelques sujets sélectionnés. DALL-E, par exemple, aime créer des images basées sur des objets ménagers de tous les jours, comme des horloges ou des toilettes. Imagen, du moins pour le moment, semble mettre les animaux mignons au premier plan de ses capacités de génération d’images. Mais il y a en fait une très bonne raison à cela.
L’équipe Brain de Google n’hésite pas à dire qu’Imagen garde les choses relativement inoffensives. Dans le cadre d’une clause de non-responsabilité assez longue, l’équipe est bien consciente que les réseaux de neurones peuvent être utilisés pour générer des contenus préjudiciables comme des stéréotypes raciaux ou pousser des idéologies toxiques. Imagen utilise même un ensemble de données connu pour contenir un tel contenu inapproprié.
« Alors qu’un sous-ensemble de nos données de formation a été filtré pour supprimer le bruit et le contenu indésirable, tel que l’imagerie pornographique et le langage toxique », note Brain Team, « nous avons également utilisé l’ensemble de données LAION-400M qui est connu pour contenir un large éventail de contenus inappropriés, y compris images pornographiques, insultes racistes et stéréotypes sociaux nuisibles.
« Imagen s’appuie sur des encodeurs de texte formés sur des données Web non conservées, et hérite ainsi des préjugés sociaux et des limites des grands modèles de langage. »
C’est également la raison pour laquelle l’équipe Brain de Google n’a pas l’intention de publier Imagen pour un usage public, du moins jusqu’à ce qu’elle puisse développer de nouvelles « protections » pour empêcher l’IA d’être utilisée à des fins néfastes. En conséquence, l’aperçu sur le site Web est limité à quelques variables triées sur le volet.
En fin de compte, c’est le bon choix. Il y a eu des exemples dans le passé de programmes d’IA lancés sur le public en ligne… avec des résultats extrêmement indésirables. Vous vous souvenez peut-être de Tay de Microsoft, un compte Twitter d’IA introduit sur la plate-forme de médias sociaux il y a environ cinq ans.
Tay était une expérience assez courageuse de la part de Microsoft. Son intention était de voir comment une IA réagirait et interagirait avec de vraies personnes dans un environnement de médias sociaux. Cependant, en quelques heures, Tay est passé d’un chatbot sain à un distributeur de points de discussion antisémites. Et ce malgré le fait que le bot ait été « modélisé, nettoyé et filtré » selon Microsoft (merci, Le bord).
Compte tenu du précédent créé par une IA comme Tay, il est facile de comprendre pourquoi Imagen a été maîtrisé. De toute évidence, même un filtrage étendu pourrait ne pas suffire.
Encore loin d’être parfait
Bien que j’aie été immensément impressionné par Imagen et que je me sois beaucoup amusé à mélanger et assortir des phrases pour créer toutes sortes d’images bizarres, ce n’est certainement pas quelque chose que je considérerais comme extrêmement convaincant. Du moins pas pour le moment.
Le plus souvent, Imagen a renvoyé des résultats effroyablement hilarants. Les animaux, en particulier, apparaissaient souvent avec toutes sortes de proportions farfelues. Voir un raton laveur avec une tête massive ou des bras sanglants ressemblant à des humains agrippant le guidon d’un vélo était un spectacle assez courant. Bien que très drôles, ces résultats particuliers mélangés au photoréalisme ont souvent produit des résultats inquiétants et troublants.
L’option de générer une peinture à l’huile était en fait beaucoup plus convaincante, et la plupart de ce qu’Imagen a pu produire ici n’aurait pas l’air déplacé dans un projet scolaire. Et je le dis de la manière la plus agréable possible. Il s’avère qu’un chat persan grattant une guitare se traduit de manière beaucoup plus convaincante dans une peinture que dans une photo réaliste.
Comme indiqué, il est fort probable que nous n’obtiendrons pas de sitôt une version publique d’Imagen. Ou jamais, d’ailleurs. Les risques posés par les programmes d’IA et les réseaux de neurones capables de générer des contenus peu recommandables sont encore bien trop grands. Pour l’instant, cependant, je me contente du fait qu’Imagen soit une petite curiosité amusante pour ceux qui cherchent à passer un peu de temps à générer des animaux drôles portant un chapeau de cow-boy faisant du skateboard sur une montagne.