Human Rights Watch (HRW) continue de révéler comment des photos d’enfants réels publiées en ligne il y a des années sont utilisées pour former des modèles d’IA alimentant des générateurs d’images, même lorsque les plateformes interdisent le scraping et que les familles utilisent des paramètres de confidentialité stricts.
Le mois dernier, Hye Jung Han, chercheuse à HRW, a découvert 170 photos d’enfants brésiliens liées à LAION-5B, un ensemble de données d’IA populaire construit à partir d’instantanés Common Crawl du Web public. Elle a maintenant publié un deuxième rapport, signalant 190 photos d’enfants de tous les États et territoires d’Australie, y compris des enfants autochtones qui peuvent être particulièrement vulnérables aux préjudices.
Ces photos sont liées dans l’ensemble de données « sans que les enfants ou leurs familles en soient informés ou y consentent ». Elles couvrent toute la période de l’enfance, ce qui permet aux générateurs d’images IA de générer des deepfakes réalistes de vrais enfants australiens, selon le rapport de Han. Ce qui est peut-être encore plus inquiétant, c’est que les URL de l’ensemble de données révèlent parfois des informations d’identification sur les enfants, notamment leurs noms et les lieux où les photos ont été prises, ce qui permet de retrouver facilement les enfants dont les images pourraient autrement ne pas être détectables en ligne.
Cela met les enfants en danger en termes de confidentialité et de sécurité, a déclaré Han, et certains parents qui pensent avoir protégé la confidentialité de leurs enfants en ligne peuvent ne pas se rendre compte que ces risques existent.
À partir d’un simple lien vers une photo montrant « deux garçons de 3 et 4 ans, souriant jusqu’aux oreilles tout en tenant des pinceaux devant une fresque colorée », Han a pu retrouver « les noms complets et les âges des deux enfants, ainsi que le nom de l’école maternelle qu’ils fréquentent à Perth, en Australie occidentale ». Et peut-être plus inquiétant encore, « les informations sur ces enfants ne semblent exister nulle part ailleurs sur Internet », ce qui suggère que les familles ont été particulièrement prudentes pour protéger l’identité de ces garçons en ligne.
Des paramètres de confidentialité plus stricts ont été appliqués dans une autre image que Han a trouvée dans l’ensemble de données. La photo montrait « un gros plan de deux garçons faisant des grimaces, capturé à partir d’une vidéo publiée sur YouTube d’adolescents en train de faire la fête » au cours de la semaine suivant leurs examens finaux, a rapporté Han. Celui qui a publié cette vidéo sur YouTube a ajusté les paramètres de confidentialité pour qu’elle ne soit « pas répertoriée » et n’apparaisse pas dans les recherches.
Seule une personne disposant d’un lien vers la vidéo était censée y avoir accès, mais cela n’a pas empêché Common Crawl d’archiver l’image, pas plus que les politiques de YouTube interdisant le scraping ou la collecte d’informations d’identification par l’IA.
Contacté par Ars, le porte-parole de YouTube, Jack Malon, a déclaré que YouTube avait « clairement indiqué que le grattage non autorisé de contenu YouTube constituait une violation de nos conditions d’utilisation, et nous continuons à prendre des mesures contre ce type d’abus ». Mais Han craint que même si YouTube s’associait aux efforts visant à supprimer les images d’enfants de l’ensemble de données, le mal serait fait, puisque les outils d’IA les ont déjà entraînés. C’est pourquoi, plus encore que les parents ont besoin que les entreprises technologiques améliorent leur stratégie de blocage de l’entraînement de l’IA, les enfants ont besoin que les régulateurs interviennent et arrêtent l’entraînement avant que cela ne se produise, selon le rapport de Han.
Le rapport de Han intervient un mois avant que l’Australie ne publie un projet de loi révisé sur la protection de la vie privée. Ces réformes comprennent un projet de loi sur la protection des données des enfants, connu sous le nom de Code de confidentialité en ligne des enfants, mais Han a déclaré à Ars que même les personnes impliquées dans les discussions de longue date sur les réformes ne sont pas « vraiment sûres de ce que le gouvernement va annoncer en août ».
« Les enfants en Australie attendent avec impatience de voir si le gouvernement adoptera des mesures de protection pour eux », a déclaré Han, soulignant dans son rapport que « les enfants ne devraient pas avoir à vivre dans la peur que leurs photos puissent être volées et utilisées comme arme contre eux. »
L’IA nuit particulièrement aux enfants australiens
Pour retrouver les photos des enfants australiens, Han a « examiné moins de 0,0001 % des 5,85 milliards d’images et de légendes contenues dans l’ensemble de données ». Son échantillon étant si petit, Han s’attend à ce que ses conclusions représentent une sous-estimation significative du nombre d’enfants susceptibles d’être touchés par le scraping de données par l’IA.
« C’est étonnant que sur un échantillon aléatoire d’environ 5 000 photos, j’ai immédiatement sélectionné 190 photos d’enfants australiens », a déclaré Han à Ars. « On pourrait s’attendre à ce qu’il y ait plus de photos de chats que de photos personnelles d’enfants », puisque LAION-5B est un « reflet de l’ensemble d’Internet ».
LAION travaille avec HRW pour supprimer les liens vers toutes les images signalées, mais le nettoyage de l’ensemble des données ne semble pas être un processus rapide. Han a déclaré à Ars que, d’après son échange le plus récent avec l’association allemande à but non lucratif, LAION n’avait pas encore supprimé les liens vers les photos d’enfants brésiliens qu’elle avait signalées il y a un mois.
LAION a refusé la demande de commentaire d’Ars.
En juin, le porte-parole de LAION, Nathan Tyler, a déclaré à Ars que, « en tant qu’organisation bénévole à but non lucratif », LAION s’engage à faire sa part pour aider à résoudre le « problème plus vaste et très préoccupant » de l’utilisation abusive des données des enfants en ligne. Mais la suppression des liens de l’ensemble de données LAION-5B ne supprime pas les images en ligne, a noté Tyler, où elles peuvent toujours être référencées et utilisées dans d’autres ensembles de données d’IA, en particulier ceux qui s’appuient sur Common Crawl. Et Han a souligné que la suppression des liens de l’ensemble de données ne modifie pas les modèles d’IA qui ont déjà été formés sur eux.
« Les modèles d’IA actuels ne peuvent pas oublier les données sur lesquelles ils ont été formés, même si les données ont été ultérieurement supprimées de l’ensemble de données de formation », indique le rapport de Han.
Selon Han, les enfants dont les images sont utilisées pour former des modèles d’IA sont exposés à divers dangers, notamment au risque que les générateurs d’images puissent créer de manière plus convaincante des deepfakes nuisibles ou explicites. En Australie, le mois dernier, « environ 50 filles de Melbourne ont signalé que des photos de leurs profils sur les réseaux sociaux avaient été prises et manipulées à l’aide de l’IA pour créer des deepfakes sexuellement explicites d’elles, qui ont ensuite été diffusés en ligne », a rapporté Han.
Pour les enfants des Premières Nations, « y compris ceux identifiés dans les légendes comme appartenant aux peuples Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi et Warlpiri », l’inclusion de liens vers des photos constitue une menace particulière. Étant donné que culturellement, les peuples des Premières Nations « restreignent la reproduction de photos de personnes décédées pendant les périodes de deuil », Han a déclaré que la formation de l’IA pourrait perpétuer les préjudices en rendant plus difficile le contrôle de la reproduction des images.
Une fois qu’un modèle d’IA s’entraîne sur les images, il existe d’autres risques évidents pour la vie privée, notamment la crainte que les modèles d’IA soient « connus pour divulguer des informations privées », a déclaré Han. Les garde-fous ajoutés aux générateurs d’images n’empêchent pas toujours ces fuites, certains outils étant « brisés à plusieurs reprises », a rapporté Han.
LAION recommande aux parents inquiets des risques liés à la vie privée de supprimer les images de leurs enfants en ligne, car c’est le moyen le plus efficace de prévenir les abus. Mais Han a déclaré à Ars que c’était « non seulement irréaliste, mais franchement scandaleux ».
« La réponse n’est pas d’appeler les enfants et les parents à supprimer les magnifiques photos d’enfants en ligne », a déclaré Han. « L’appel devrait être [for] une sorte de protection juridique pour ces photos, afin que les enfants n’aient pas à se demander toujours si leur selfie va être utilisé à mauvais escient.