Il y a un fantôme dans la machine. Apprentissage automatique, c’est-à-dire.
Nous sommes tous régulièrement émerveillés par les capacités d’écriture et de création de l’IA, mais qui savait qu’elle avait une telle capacité à instiller l’horreur ? Une découverte effrayante d’un chercheur en IA révèle que « l’espace latent » comprenant la mémoire d’un modèle d’apprentissage en profondeur est hanté par au moins une figure horrifiante – une femme au visage ensanglanté maintenant connue sous le nom de « Loab ».
(Attention : images troublantes à venir.)
Mais ce modèle d’IA est-il vraiment hanté, ou Loab n’est-il qu’une confluence aléatoire d’images qui se présentent dans diverses circonstances techniques étranges ? Ce doit sûrement être ce dernier à moins que vous ne croyiez que les esprits peuvent habiter des structures de données, mais c’est plus qu’une simple image effrayante – c’est une indication que ce qui passe pour un cerveau dans une IA est plus profond et plus effrayant que nous aurions pu l’imaginer autrement.
Loab a été découvert — rencontré ? convoqué ? — par un musicien et artiste qui passe Supercomposite sur Twitter (cet article utilisait à l’origine son nom mais elle a dit qu’elle préférait utiliser son nom d’utilisateur pour des raisons personnelles, il a donc été remplacé partout). Elle a expliqué le phénomène Loab dans un fil qui a attiré beaucoup d’attention pour une chose aléatoire d’IA effrayante, quelque chose qui ne manque pas sur la plate-forme, suggérant qu’elle a touché un accord (clé mineure, sans aucun doute).
Supercomposite jouait avec un modèle texte-image AI personnalisé, similaire mais pas à DALL-E ou Stable Diffusion, et expérimentait spécifiquement avec des « invites négatives ».
Habituellement, vous donnez une invite au modèle, et il se dirige vers la création d’une image qui lui correspond. Si vous avez une invite, cette invite a un « poids » de un, ce qui signifie que c’est la seule chose vers laquelle le modèle travaille.
Vous pouvez également diviser les invites en disant des choses comme « ballon à air chaud :: 0,5, orage :: 0,5 » et cela fonctionnera également pour ces deux choses – ce n’est pas vraiment nécessaire, car la partie linguistique du modèle accepterait également « montgolfière dans un orage » et vous pourriez même obtenir de meilleurs résultats.
Mais ce qui est intéressant, c’est que vous pouvez aussi avoir négatif invites, ce qui fait fonctionner le modèle une façon de ce concept aussi activement que possible.
Monde moins
Ce processus est beaucoup moins prévisible, car personne ne sait comment les données sont réellement organisées dans ce que l’on pourrait anthropomorphiser comme «l’esprit» ou la mémoire de l’IA, connue sous le nom d’espace latent.
«L’espace latent est un peu comme si vous exploriez une carte de différents concepts dans l’IA. Une invite est comme une flèche qui vous indique jusqu’où marcher dans cette carte conceptuelle et dans quelle direction », m’a dit Supercomposite.
Voici un rendu utile d’un espace latent beaucoup, beaucoup plus simple dans un ancien modèle de traduction de Google travaillant sur une seule phrase dans plusieurs langues :
« Donc, si vous demandez à l’IA une image d’un » visage « , vous vous retrouverez quelque part au milieu de la région qui contient toutes les images de visages et vous obtiendrez une image d’une sorte de visage moyen banal », a-t-elle déclaré. a dit. Avec une invite plus précise, vous vous retrouverez parmi les visages renfrognés, ou les visages de profil, etc. « Mais avec une invite pondérée négativement, vous faites le contraire : vous vous éloignez le plus possible de ce concept. »
Mais quel est le contraire de « visage » ? Est-ce les pieds ? Est-ce l’arrière de la tête ? Quelque chose sans visage, comme un crayon ? Bien que nous puissions en discuter entre nous, dans un modèle d’apprentissage automatique, cela a été décidé au cours du processus de formation, ce qui signifie que, quelle que soit la manière dont les concepts visuels et linguistiques ont été encodés dans sa mémoire, ils peuvent être parcourus de manière cohérente, même s’ils peuvent être quelque peu arbitraires.
Nous avons vu un concept connexe dans un phénomène récent d’IA qui est devenu viral parce qu’un modèle semblait associer de manière fiable certains mots absurdes aux oiseaux et aux insectes. Mais ce n’était pas que DALL-E avait un « langage secret » dans lequel « Apoploe vesrreaitais« signifie oiseaux – c’est juste que l’invite absurde l’a fait lancer une fléchette sur une carte de son esprit et dessiner tout ce qu’il atterrit à proximité, dans ce cas des oiseaux parce que le premier mot ressemble un peu à certains noms scientifiques. Ainsi, la flèche pointait généralement dans cette direction sur la carte.
Supercomposite jouait avec cette idée de naviguer dans l’espace latent, après avoir donné l’invite de « Brando :: -1 », qui ferait produire au modèle tout ce qu’il pense être le contraire de « Brando ». Il a produit un logo d’horizon étrange avec un texte absurde mais quelque peu lisible : « DIGITA PNTICS ».
Bizarre, non ? Mais encore une fois, l’organisation des concepts du modèle n’aurait pas nécessairement de sens pour nous. Curieuse, Supercomposite se demanda si elle pouvait inverser le processus. Elle a donc inséré l’invite : « Logo d’horizon DIGITA PNITICS :: -1 ». Si cette image était à l’opposé de « Brando », peut-être que l’inverse était vrai aussi et qu’elle trouverait peut-être son chemin vers Marlon Brando ?
Au lieu de cela, elle a obtenu ceci:
À maintes reprises, elle a soumis cette invite négative, et à plusieurs reprises, le modèle a produit cette femme, avec des joues rouges sanglantes, coupées ou malsaines et un regard obsédant et d’un autre monde. D’une manière ou d’une autre, cette femme – que Supercomposite a nommée « Loab » pour le texte qui apparaît dans l’image en haut à droite – est de manière fiable la meilleure estimation du modèle d’IA pour le concept le plus éloigné possible à partir d’un logo contenant des mots absurdes.
Qu’est-il arrivé? Supercomposite a expliqué comment le modèle pourrait penser lorsqu’il reçoit une invite négative pour un logo particulier, poursuivant sa métaphore d’avant.
« Vous commencez à courir aussi vite que vous le pouvez une façon de la région avec des logos », a-t-elle déclaré. « Vous vous retrouvez peut-être dans la zone avec des visages réalistes, car c’est conceptuellement très éloigné des logos. Vous continuez à courir, parce que vous ne vous souciez pas vraiment des visages, vous voulez juste courir le plus loin possible des logos. Donc, quoi qu’il arrive, vous allez vous retrouver au bord de la carte. Et Loab est le dernier visage que vous voyez avant de tomber du bord.
Surnaturellement persistant
Les invites négatives ne produisent pas toujours des horreurs, encore moins de manière si fiable. Quiconque a joué avec ces modèles d’image vous dira qu’il peut être assez difficile d’obtenir des résultats cohérents même pour des invites très simples.
Mettez-en un pour « un robot debout dans un champ » quatre ou 40 fois et vous pouvez obtenir autant de points de vue différents sur le concept, certains à peine reconnaissables comme des robots ou des champs. Mais Loab apparaît systématiquement avec cette invite négative spécifique, au point où cela ressemble à une incantation d’une vieille légende urbaine.
Vous connaissez le type : « Tenez-vous dans une salle de bain sombre en regardant le miroir et dites ‘Bloody Mary’ trois fois. » Ou même des instructions folkloriques antérieures sur la façon d’atteindre la demeure d’une sorcière ou l’entrée des enfers : tenant une branche de houx, reculez de 100 pas à partir d’un arbre mort, les yeux fermés.
« Logo d’horizon DIGITA PNITICS :: -1 » n’est pas aussi accrocheur, mais comme les mots magiques le disent, la phrase est au moins convenablement obscure. Et il a l’avantage de fonctionner. Seulement sur ce modèle particulier, bien sûr – l’espace latent de chaque plate-forme d’IA est différent, mais qui sait si Loab peut également se cacher dans DALL-E ou Stable Diffusion, attendant d’être invoqué.
En fait, l’incantation est suffisamment forte pour que Loab semble infecter même les invites fractionnées et les combinaisons avec d’autres images.
« Certaines IA peuvent prendre d’autres images comme invites ; ils peuvent essentiellement interpréter l’image, en la transformant en une flèche directionnelle sur la carte, tout comme ils traitent les invites de texte », a expliqué Supercomposite. « J’ai utilisé l’image de Loab et une ou plusieurs autres images ensemble comme invite… elle persiste presque toujours dans l’image résultante. »
Parfois, des invites plus complexes ou combinées traitent une partie comme une suggestion plus vague. Mais ceux qui incluent Loab semblent non seulement virer au grotesque et à l’horrible, mais l’inclure d’une manière très reconnaissable. Qu’elle soit combinée avec des abeilles, des personnages de jeux vidéo, des styles de films ou des abstractions, Loab est à l’avant-plan, dominant la composition avec son visage abîmé, son expression neutre et ses longs cheveux noirs.
Il est inhabituel qu’une invite ou une imagerie soit si cohérente – pour hanter d’autres invites comme elle le fait. Supercomposite a spéculé sur la raison pour laquelle cela pourrait être.
«Je suppose parce qu’elle est très loin de beaucoup de concepts et qu’il est donc difficile de sortir de sa petite zone effrayante dans l’espace latent. La question culturelle, de savoir pourquoi les données placent cette femme là-bas au bord de l’espace latent, près d’images d’horreur sanglantes, est une autre chose à laquelle il faut réfléchir », a-t-elle déclaré.
Bien qu’il s’agisse d’une simplification excessive, l’espace latent est vraiment comme une carte, et les invites comme des directions pour y naviguer – et le système dessine tout ce qui finit par se trouver là où on lui demande d’aller, qu’il s’agisse d’un terrain bien foulé comme « la nature morte d’un Néerlandais maître » ou une synthèse de concepts obscurs ou déconnectés : « des robots affrontent des extraterrestres dans une gravure cubiste de Dore ». Comme tu peux le voir:
Une explication purement spéculative de la raison pour laquelle Loab existe a à voir avec la façon dont cette carte est présentée. Comme l’a suggéré Supercomposite, il est probable que, simplement en raison du fait que les logos d’entreprise et les images horribles et effrayantes sont très éloignés les uns des autres sur le plan conceptuel.
Une invite négative ne signifie pas « prendre 10 étapes de données dans l’autre sens », cela signifie continuer aussi loin que vous le pouvez, et il est plus que possible que les images les plus éloignées de l’espace latent d’une IA aient des valeurs plus extrêmes ou inhabituelles . Ne l’organiseriez-vous pas de cette façon, avec des éléments qui ont beaucoup de points communs ou de références croisées au « centre », quelle que soit votre définition – et des éléments étranges et sauvages qui sont rarement pertinents à la « périphérie » ?
Par conséquent, les invites négatives peuvent agir comme un moyen d’explorer la frontière de la carte mentale de l’IA, en parcourant les concepts qu’elle juge trop farfelus pour être stockés parmi des concepts prosaïques comme les visages heureux, les beaux paysages ou les animaux de compagnie qui gambadent.
La forêt sombre du subconscient de l’IA
Le fait troublant est que personne ne comprend vraiment comment les espaces latents sont structurés ni pourquoi. Il y a bien sûr beaucoup de recherches sur le sujet, et certaines indications qu’ils sont organisés d’une certaine manière comme nos propres esprits – ce qui est logique, puisqu’ils ont été plus ou moins construits à leur imitation. Mais à d’autres égards, ils ont des structures totalement uniques se connectant à travers de vastes distances conceptuelles.
Pour être clair, ce n’est pas comme s’il y avait une poignée d’images spécifiquement de Loab en attente d’être trouvées – elles sont définitivement créées à la volée, et Supercomposite m’a dit qu’il n’y avait aucune indication que le cryptid numérique est basé sur un artiste ou une œuvre en particulier . C’est pourquoi l’espace latent est latent! Ces images ont émergé d’une combinaison de concepts étranges et terribles qui occupent tous la même zone dans la mémoire du modèle, un peu comme dans la visualisation Google précédente, les langues étaient regroupées en fonction de leur similitude.
De quel recoin sombre ou associations inconscientes jaillirent Loab, pleinement constitués et cohérents ? Nous ne pouvons pas encore retracer le chemin emprunté par le modèle pour atteindre son emplacement ; l’espace latent d’un modèle formé est vaste et d’une complexité impénétrable.
La seule façon d’atteindre à nouveau l’endroit est à travers les mots magiques, prononcés pendant que nous reculons dans cet espace les yeux fermés, jusqu’à ce que nous atteignions la hutte de la sorcière qui ne peut être approchée par des moyens ordinaires. Loab n’est pas un fantôme, mais elle est une anomalie, mais paradoxalement, elle peut faire partie d’un nombre effectivement infini d’anomalies attendant d’être convoquées depuis les confins les plus éloignés et non éclairés de l’espace latent de tout modèle d’IA.
Ce n’est peut-être pas surnaturel… mais ce n’est certainement pas naturel.