Un nouvel outil mis au point par des chercheurs de l’Université de Chicago promet de protéger l’art contre l’aspiration par des modèles d’IA et son utilisation à des fins de formation sans autorisation en « empoisonnant » les données d’images.
Connu sous le nom de Nightshade, l’outil modifie les données d’images numériques d’une manière qui est censée être invisible à l’œil humain, mais qui provoque toutes sortes de problèmes pour les modèles de formation générative, tels que DALL-E, Midjourney et Stable Diffusion.
La technique, connue sous le nom d’empoisonnement des données, prétend introduire « des comportements inattendus dans les modèles d’apprentissage automatique au moment de la formation ». L’équipe de l’Université de Chicago affirme que son document de recherche montre que de telles attaques par empoisonnement peuvent être « étonnamment » réussies.
Apparemment, les images des échantillons de poison semblent « visuellement identiques » aux images inoffensives. On prétend que les échantillons de poison Nightshade sont « optimisés pour la puissance » et peuvent corrompre une invite SDXL à diffusion stable dans moins de 100 échantillons de poison.
Les détails du fonctionnement de la technologie ne sont pas tout à fait clairs, mais impliquent de modifier les pixels de l’image de manière invisible à l’œil humain, tout en amenant les modèles d’apprentissage automatique à mal interpréter le contenu. On prétend que les données empoisonnées sont très difficiles à supprimer, ce qui implique que chaque image empoisonnée doit être identifiée manuellement et supprimée du modèle.
En utilisant la diffusion stable comme sujet de test, les chercheurs ont découvert qu’il suffisait de 300 échantillons de poison pour confondre le modèle et lui faire croire qu’un chien était un chat ou qu’un chapeau était un gâteau. Ou est-ce l’inverse ?
Quoi qu’il en soit, ils affirment également que l’impact des images empoisonnées peut s’étendre à des concepts connexes, permettant à un nombre modéré d’attaques Nightshade de « déstabiliser les caractéristiques générales d’un modèle génératif texte-image, désactivant ainsi sa capacité à générer des images significatives ».
Cela dit, l’équipe admet que faire tomber les modèles plus gros n’est pas si facile. Il faudrait des milliers d’images empoisonnées. Ce qui est probablement une bonne chose du point de vue d’un acteur malveillant. En d’autres termes, il faudrait un effort concerté pour saper tout grand modèle génératif donné.
Alors, boum !, votre modèle d’imagerie IA est-il parti en fumée ? Peut-être, mais pourrait-on également imaginer que le puissant esprit ruche génératif de l’IA ait besoin de trois picosecondes pour enregistrer, ajuster et rendre entièrement redondantes de telles mesures maintenant que la technologie a été dévoilée ? À ce moment-là, l’homme riposte avec un nouveau vecteur d’attaque et la lutte éternelle continue tandis que les crânes et les pièces de machines s’entassent à travers le désert post-thermonucléaire.
Ou quelque chose comme ça. Il sera certainement intéressant de voir si ce type de contre-mesure fonctionne réellement, et peut-être plus pertinentement, combien de temps cela dure si c’est le cas.