Les chercheurs ont trouvé du matériel pédopornographique dans le plus grand ensemble de données de génération d’images d’IA

Des chercheurs de l’Observatoire Internet de Stanford affirment qu’un ensemble de données utilisé pour former les outils de génération d’images d’IA contient au moins 1 008 cas validés de matériel d’abus sexuel sur des enfants. Les chercheurs de Stanford notent que la présence de CSAM dans l’ensemble de données pourrait permettre aux modèles d’IA formés sur les données de générer de nouvelles instances de CSAM, même réalistes.

LAION, l’organisation à but non lucratif qui a créé l’ensemble de données, a déclaré 404 Médias qu’il « a une politique de tolérance zéro pour les contenus illégaux et, avec beaucoup de prudence, nous supprimons temporairement les ensembles de données LAION pour garantir leur sécurité avant de les republier ». L’organisation a ajouté qu’avant de publier ses ensembles de données, elle avait créé des filtres pour détecter et supprimer le contenu illégal. Cependant, 404 souligne que les dirigeants de LAION sont conscients depuis au moins 2021 de la possibilité que leurs systèmes détectent des CSAM alors qu’ils aspirent des milliards d’images sur Internet.

Selon des rapports précédents, l’ensemble de données LAION-5B en question contient « des millions d’images de pornographie, de violence, de nudité d’enfants, de mèmes racistes, de symboles de haine, d’art protégé par le droit d’auteur et d’œuvres récupérées sur les sites Web d’entreprises privées ». Au total, il comprend plus de 5 milliards d’images et les légendes descriptives associées. Le fondateur de LAION, Christoph Schuhmann, a déclaré plus tôt cette année que même s’il n’était au courant d’aucun CSAM dans l’ensemble de données, il n’avait pas examiné les données de manière approfondie.

Il est illégal pour la plupart des institutions aux États-Unis de consulter des CSAM à des fins de vérification. Ainsi, les chercheurs de Stanford ont utilisé plusieurs techniques pour rechercher du CSAM potentiel. Selon leur article, ils ont utilisé « une détection perceptuelle basée sur le hachage, une détection cryptographique basée sur le hachage et une analyse des voisins les plus proches en exploitant les intégrations d’images dans l’ensemble de données lui-même ». Ils ont trouvé 3 226 entrées contenant du CSAM suspecté. Bon nombre de ces images ont été confirmées comme étant CSAM par des tiers tels que PhotoDNA et le Centre canadien de protection de l’enfance.

Le fondateur de Stability AI, Emad Mostaque, a formé Stable Diffusion à l’aide d’un sous-ensemble de données LAION-5B. La première version de recherche du modèle texte-image Imagen de Google a été formée sur LAION-400M, mais elle n’a jamais été publiée ; Google indique qu’aucune des itérations suivantes d’Imagen n’utilise d’ensembles de données LAION. Un porte-parole de Stability AI a déclaré Bloomberg qu’il interdit l’utilisation de ses systèmes de test d’image à des fins illégales, telles que la création ou la modification de CSAM. « Ce rapport se concentre sur l’ensemble de données LAION-5B dans son ensemble », a déclaré le porte-parole. « Les modèles d’IA de stabilité ont été formés sur un sous-ensemble filtré de cet ensemble de données. De plus, nous avons affiné ces modèles pour atténuer les comportements résiduels.

Stable Diffusion 2 (une version plus récente de l’outil de génération d’images de Stability AI) a été formé sur des données qui filtraient considérablement les matériaux « dangereux » de l’ensemble de données. Que, Bloomberg notes, rend plus difficile pour les utilisateurs de générer des images explicites. Cependant, on prétend que Stable Diffusion 1.5, toujours disponible sur Internet, ne dispose pas des mêmes protections. « Les modèles basés sur Stable Diffusion 1.5 auxquels aucune mesure de sécurité n’a été appliquée devraient être obsolètes et la distribution doit être interrompue lorsque cela est possible », ont écrit les auteurs de l’article de Stanford.

Correction, 16h30 HE : Cette histoire indiquait à l’origine que l’outil Imagen de Google utilisait un sous-ensemble de données LAION-5B. L’histoire a été mise à jour pour noter qu’Imagen a utilisé LAION-400M dans sa première version de recherche, mais n’a utilisé aucune donnée LAION depuis lors. Nous nous excusons pour l’erreur.

Source-145