Après que David Thiel, chercheur à l’Observatoire Internet de Stanford, a découvert des liens vers des contenus d’abus sexuels sur mineurs (CSAM) dans un ensemble de données de formation d’IA altérant les générateurs d’images, l’ensemble de données controversé a été immédiatement supprimé en 2023.
L’équipe LAION (Large-scale Artificial Intelligence Open Network) a désormais publié une version épurée de l’ensemble de données LAION-5B appelée Re-LAION-5B et a affirmé qu’il s’agissait du « premier ensemble de données à l’échelle du Web, avec lien texte vers des images, à être entièrement nettoyé des liens connus vers des contenus CSAM suspectés ».
Pour nettoyer l’ensemble des données, LAION s’est associée à l’Internet Watch Foundation (IWF) et au Centre canadien de protection de l’enfance (C3P) pour supprimer 2 236 liens correspondant à des images hachées dans les bases de données des organisations de sécurité en ligne. Les suppressions incluent tous les liens signalés par Thiel, ainsi que le contenu signalé par les partenaires de LAION et d’autres organismes de surveillance, comme Human Rights Watch, qui a mis en garde contre des problèmes de confidentialité après avoir trouvé des photos de vrais enfants incluses dans l’ensemble de données sans leur consentement.
Dans son étude, Thiel prévient que « l’inclusion de matériel d’abus sur mineurs dans les données de formation des modèles d’IA enseigne aux outils comment associer les enfants à des activités sexuelles illicites et utilise des images d’abus sur mineurs connues pour générer de nouveaux contenus d’abus sur mineurs potentiellement réalistes ».
Thiel a exhorté LAION et d’autres chercheurs qui parcourent Internet à la recherche de données d’entraînement à l’IA, à élaborer une nouvelle norme de sécurité pour mieux filtrer non seulement le CSAM, mais aussi toute image explicite qui pourrait être combinée à des photos d’enfants pour générer du CSAM. (Récemment, le ministère américain de la Justice a déclaré avec insistance que « le CSAM généré par l’IA reste du CSAM »).
Bien que le nouvel ensemble de données de LAION ne modifie pas les modèles formés sur l’ensemble de données précédent, LAION a affirmé que Re-LAION-5B établit « une nouvelle norme de sécurité pour le nettoyage des ensembles de données de liens d’images à l’échelle du Web ». Alors qu’auparavant le contenu illégal « passait à travers » les filtres de LAION, les chercheurs ont maintenant développé un nouveau système amélioré « pour identifier et supprimer le contenu illégal », a déclaré le blog de LAION.
Thiel a déclaré à Ars qu’il était d’accord avec le fait que LAION a établi une nouvelle norme de sécurité avec sa dernière version, mais « il existe absolument des moyens de l’améliorer ». Cependant, « ces méthodes nécessiteraient la possession de toutes les images originales ou une toute nouvelle analyse », et le message de LAION indiquait clairement qu’il n’utilisait que des hachages d’images et n’effectuait pas une nouvelle analyse qui aurait pu risquer de récupérer davantage de contenu illégal ou sensible. (Sur Threads, Thiel a partagé des impressions plus approfondies sur les efforts de LAION pour nettoyer l’ensemble de données.)
LAION a averti que « les filtres de pointe actuels ne sont pas à eux seuls suffisamment fiables pour garantir une protection contre le CSAM dans les scénarios de composition de données à l’échelle du Web ».
« Pour assurer un meilleur filtrage, les listes de hachages de liens ou d’images suspects créées par des organisations expertes (dans notre cas, IWF et C3P) sont des choix appropriés », a déclaré le blog de LAION. « Nous recommandons aux laboratoires de recherche et à toute autre organisation composant des ensembles de données à partir du Web public de s’associer à des organisations comme IWF et C3P pour obtenir de telles listes de hachage et les utiliser pour le filtrage. À plus long terme, une initiative commune plus vaste peut être créée pour mettre ces listes de hachage à la disposition de la communauté de recherche travaillant sur la composition d’ensembles de données à partir du Web. »
Selon LAION, la plus grande préoccupation est que certains liens vers des contenus CSAM connus extraits d’un ensemble de données de 2022 sont toujours actifs plus d’un an plus tard.
« C’est un signe clair que les forces de l’ordre doivent intensifier leurs efforts pour supprimer les domaines qui hébergent ce type de contenu d’image sur le Web public, en suivant les informations et les recommandations d’organisations comme l’IWF et le C3P, pour en faire un endroit plus sûr, également pour divers types d’activités liées à la recherche », a déclaré le blog de LAION.
La chercheuse de HRW, Hye Jung Han, a félicité LAION pour avoir supprimé les données sensibles qu’elle avait signalées, tout en appelant à davantage d’interventions.
« La suppression par LAION de certaines photos personnelles d’enfants de son ensemble de données est la bienvenue et contribuera à protéger ces enfants contre l’utilisation abusive de leurs images par les systèmes d’IA », a déclaré Han à Ars. « Il appartient désormais aux gouvernements d’adopter des lois sur la protection des données des enfants qui protégeraient la vie privée de tous les enfants en ligne. »
Bien que le blog de LAION ait déclaré que les suppressions de contenu représentaient une « limite supérieure » du CSAM qui existait dans l’ensemble de données initial, le spécialiste de l’IA et cofondateur de Creative.AI, Alex Champandard, a déclaré à Ars qu’il était sceptique quant au fait que tout le CSAM ait été supprimé.
« Ils ne filtrent que les contenus d’abus sexuels sur mineurs déjà identifiés, ce qui n’est qu’une solution partielle », a déclaré Champandard à Ars. « Statistiquement parlant, la plupart des cas d’abus sexuels sur mineurs n’ont probablement jamais été signalés ni étudiés par le C3P ou l’IWF. Une estimation plus raisonnable du problème est d’environ 25 000 cas de choses sur lesquelles vous ne voudriez jamais entraîner de modèles génératifs, peut-être même 50 000. »
Champandard a convenu avec Han que davantage de réglementations sont nécessaires pour protéger les personnes contre les dangers de l’IA lorsque les données de formation sont extraites du Web.
« Il y a place à l’amélioration sur tous les fronts : confidentialité, droits d’auteur, contenu illégal, etc. », a déclaré Champandard. « Étant donné que de trop nombreux droits sur les données sont violés avec de tels ensembles de données récupérés sur le Web », Champandard a suggéré que des ensembles de données comme celui de LAION ne « résisteront pas à l’épreuve du temps ».
« LAION fonctionne simplement dans le vide réglementaire et à la traîne du système judiciaire jusqu’à ce que les décideurs politiques réalisent l’ampleur du problème », a déclaré Champandard.