Tumblr et WordPress seraient sur le point de conclure des accords pour vendre des données utilisateur aux sociétés d’intelligence artificielle OpenAI et Midjourney. 404 Médias rapporte que la société mère des plateformes, Automattic, est sur le point de conclure un accord visant à fournir des données pour aider à former les modèles des sociétés d’IA.
Il n’est pas clair quelles données seront incluses, mais le rapport suggère qu’Automattic a peut-être dépassé les limites au départ. Un prétendu message interne du chef de produit Tumblr, Cyle Gage, suggère qu’Automattic est prêt à envoyer des données privées ou liées à des partenaires qui n’étaient pas censées être incluses dans l’accord. Le contenu douteux inclurait des articles privés sur des articles de blog publics, des blogs supprimés ou suspendus, des questions sans réponse (donc non publiées publiquement), des réponses privées, des articles marqués comme explicites et du contenu provenant de blogs partenaires premium (comme l’ancien site de musique d’Apple).
La publication interne suggère que les ingénieurs d’Automattic préparent une liste d’identifiants de publication qui auraient dû être exclus. Il n’est pas clair si les données ont déjà été envoyées aux sociétés d’IA.
Engadget a envoyé un e-mail à Automattic pour demander des commentaires sur le rapport. La société a répondu par une déclaration publiée, affirmant : « Nous partagerons uniquement le contenu public hébergé sur WordPress.com et Tumblr à partir de sites qui ne se sont pas désabonnés. » La déclaration note que les réglementations légales n’exigent pas actuellement que les robots d’exploration des sociétés d’IA se conforment aux préférences de désinscription des utilisateurs.
La dernière ligne de la déclaration d’Automattic semble correspondre aux transactions signalées. « Nous travaillons également directement avec certaines sociétés d’IA, à condition que leurs plans correspondent à ce qui intéresse notre communauté : l’attribution, les désinscriptions et le contrôle », a écrit Automattic. «Nos partenariats respecteront tous les paramètres de désinscription. Nous prévoyons également d’aller plus loin et d’informer régulièrement tous nos partenaires des personnes qui se sont récemment désistées et de demander que leur contenu soit supprimé des sources passées et des formations futures.
La société aurait l’intention de lancer mercredi un nouvel outil de désinscription qui prétend permettre aux utilisateurs d’empêcher des tiers – y compris des sociétés d’IA – de se former sur leurs données. 404 Médias a examiné une prétendue FAQ interne qu’Automattic a préparée pour l’outil, qui comprend la réponse : « Si vous vous désabonnez dès le début, nous empêcherons les robots d’exploration d’accéder à votre contenu en ajoutant votre site sur une liste non autorisée. Si vous changez d’avis plus tard, nous prévoyons également d’informer tous nos partenaires des personnes qui se sont récemment désistées et de demander que leur contenu soit supprimé des sources passées et des formations futures.
La formulation, la décrivant comme « demandant » aux sociétés d’IA de supprimer les données, peut être pertinente.
Un prétendu document interne du responsable de l’IA d’Automattic, Andrew Spittle, répondant à une question du personnel sur les garanties de suppression des données lors de l’utilisation de l’outil, explique : « Nous informerons régulièrement les partenaires existants de toute personne qui s’est désinscrite depuis la dernière fois que nous avons fourni une liste. Je souhaite qu’il s’agisse d’un processus continu dans lequel nous plaidons régulièrement pour que le contenu passé soit exclu en fonction des préférences actuelles. Nous demanderons que le contenu soit supprimé et retiré de toute future formation. Je pense que les partenaires honoreront cela sur la base de nos conversations avec eux jusqu’à présent. Je ne pense pas qu’ils gagnent globalement grand-chose à le conserver.
Ainsi, si un utilisateur de Tumblr ou de WordPress demande à se retirer de la formation en IA, Automattic « demandera » et « plaidera en faveur » de sa suppression. Et le patron de l’IA de l’entreprise « croit » que les sociétés d’IA trouveront qu’il est dans leur intérêt de se conformer « sur la base de nos conversations ». (Comment c’est pour se rassurer !)
Les offres de formation sur les données d’IA sont devenues une opportunité lucrative pour les sites Web qui font du surplace dans le paysage glissant de la publication en ligne d’aujourd’hui. (Le personnel de Tumblr aurait été réduit à une équipe restreinte fin 2023.) La semaine dernière, Google a conclu un accord avec Reddit (avant l’introduction en bourse de ce dernier) pour se former sur la vaste base de connaissances de la plateforme sur le contenu créé par les utilisateurs. Pendant ce temps, OpenAI a déployé l’année dernière un programme de partenariat pour collecter des ensembles de données auprès de tiers afin de l’aider à former ses modèles d’IA.
Mise à jour, 27 février 2024, 15 h 56 HE: Cette histoire a été mise à jour pour ajouter une déclaration publiée par la société mère WordPress et Tumblr, Automattic.