Un artiste trouve des photos de dossiers médicaux privés dans un ensemble de données de formation d’IA populaire

Agrandir / Images médicales censurées trouvées dans l’ensemble de données LAION-5B utilisé pour entraîner l’IA. Les barres noires et la distorsion ont été ajoutées.

Ars Technica

À la fin de la semaine dernière, un californien Artiste IA qui s’appelle Lapine découvert photos de dossiers médicaux privés prises par son médecin en 2013 référencées dans l’ensemble d’images LAION-5B, qui est une sélection d’images accessibles au public sur le Web. Les chercheurs en IA téléchargent un sous-ensemble de ces données pour former des modèles de synthèse d’images IA tels que Stable Diffusion et Google Imagen.

Lapine a découvert ses photos médicales sur un site appelé Have I Been Trained, qui permet aux artistes de voir si leur travail se trouve dans l’ensemble de données LAION-5B. Au lieu de faire une recherche de texte sur le site, Lapine a téléchargé une photo récente d’elle-même en utilisant la fonction de recherche d’image inversée du site. Elle a été surprise de découvrir un ensemble de deux photos médicales avant-après de son visage, qui n’avaient été autorisées que pour un usage privé par son médecin, comme en témoigne un formulaire d’autorisation Lapine tweeté et également fourni à Ars.

Lapine a une maladie génétique appelée dyskératose congénitale. « Cela affecte tout, de ma peau à mes os et mes dents », a déclaré Lapine à Ars Technica dans une interview. « En 2013, j’ai subi une petite série de procédures pour restaurer les contours du visage après avoir subi tant de chirurgies de la bouche et de la mâchoire. Ces photos proviennent de ma dernière série de procédures avec ce chirurgien. »

Le chirurgien qui possédait les photos médicales est décédé d’un cancer en 2018, selon Lapine, et elle soupçonne qu’ils ont en quelque sorte quitté la garde de son cabinet après cela. « C’est l’équivalent numérique de la réception de biens volés », explique Lapine. « Quelqu’un a volé l’image dans les dossiers de mon médecin décédé et elle s’est retrouvée quelque part en ligne, puis elle a été intégrée à cet ensemble de données.

Lapine préfère cacher son identité pour des raisons de confidentialité médicale. Avec des enregistrements et des photos fournis par Lapine, Ars a confirmé qu’il existe des images médicales d’elle référencées dans l’ensemble de données LAION. Au cours de notre recherche des photos de Lapine, nous avons également découvert des milliers de photos de dossiers médicaux de patients similaires dans l’ensemble de données, chacune pouvant avoir un statut éthique ou juridique douteux similaire, dont beaucoup ont probablement été intégrées dans des modèles de synthèse d’images populaires que les entreprises aiment. Offre Midjourney et Stability AI en tant que service commercial.

Cela ne signifie pas que n’importe qui peut soudainement créer une version IA du visage de Lapine (dans l’état actuel de la technologie) – et son nom n’est pas lié aux photos – mais cela la dérange que des images médicales privées aient été intégrées dans un produit sans toute forme de consentement ou de recours pour les retirer. « C’est déjà assez grave d’avoir une photo divulguée, mais maintenant ça fait partie d’un produit », dit Lapine. « Et cela vaut pour les photos de n’importe qui, dossier médical ou non. Et le potentiel d’abus futur est vraiment élevé. »

Qui surveille les observateurs ?

LAION se décrit comme une organisation à but non lucratif comptant des membres dans le monde entier, « visant à mettre à la disposition du grand public des modèles d’apprentissage automatique à grande échelle, des ensembles de données et le code associé ». Ses données peuvent être utilisées dans divers projets, de la reconnaissance faciale à la vision par ordinateur en passant par la synthèse d’images.

Par exemple, après un processus de formation à l’IA, certaines des images de l’ensemble de données LAION deviennent la base de l’incroyable capacité de Stable Diffusion à générer des images à partir de descriptions textuelles. Étant donné que LAION est un ensemble d’URL pointant vers des images sur le Web, LAION n’héberge pas les images elles-mêmes. Au lieu de cela, LAION dit que les chercheurs doivent télécharger les images à partir de divers endroits lorsqu’ils veulent les utiliser dans un projet.

L'ensemble de données LAION regorge d'images potentiellement sensibles collectées sur Internet, comme celles-ci, qui sont maintenant intégrées dans des produits commerciaux d'apprentissage automatique.  Des barres noires ont été ajoutées par Ars à des fins de confidentialité.
Agrandir / L’ensemble de données LAION regorge d’images potentiellement sensibles collectées sur Internet, comme celles-ci, qui sont maintenant intégrées dans des produits commerciaux d’apprentissage automatique. Des barres noires ont été ajoutées par Ars à des fins de confidentialité.

Ars Technica

Dans ces conditions, la responsabilité de l’inclusion d’une image particulière dans l’ensemble LAION devient alors un jeu fantaisiste de redistribution. Une amie de Lapine a posé une question ouverte sur la chaîne #safety-and-privacy du serveur Discord de LAION vendredi dernier demandant comment supprimer ses images du plateau. L’ingénieur du LAION, Romain Beaumont, a répondu : « La meilleure façon de supprimer une image d’Internet est de demander au site Web qui l’héberge de cesser de l’héberger », a écrit Beaumont. « Nous n’hébergeons aucune de ces images. »

Aux États-Unis, l’extraction de données accessibles au public sur Internet semble être légale, comme l’affirment les résultats d’une affaire judiciaire de 2019. Est-ce surtout la faute du médecin décédé, alors ? Ou le site qui héberge les images illicites de Lapine sur le web ?

Ars a contacté LAION pour commenter ces questions mais n’a pas reçu de réponse avant l’heure de presse. Le site Web de LAION fournit un formulaire où les citoyens européens peuvent demander des informations supprimées de leur base de données pour se conformer aux lois GDPR de l’UE, mais uniquement si une photo d’une personne est associée à un nom dans les métadonnées de l’image. Grâce à des services tels que PimEyes, cependant, il est devenu trivial d’associer le visage de quelqu’un à des noms par d’autres moyens.

En fin de compte, Lapine comprend comment la chaîne de possession de ses images privées a échoué, mais aimerait toujours voir ses images supprimées de l’ensemble de données LAION. « J’aimerais avoir un moyen pour quiconque de demander que son image soit supprimée de l’ensemble de données sans sacrifier ses informations personnelles. Ce n’est pas parce qu’ils l’ont récupérée sur le Web qu’elle était censée être une information publique, ou même sur le Internet du tout. »

Source-147