Le dernier procès pour droits d’auteur sur l’IA implique Mike Huckabee et ses livres

L’ancien gouverneur de l’Arkansas, Mike Huckabee, fait partie d’un groupe d’auteurs poursuivant Meta, Microsoft et d’autres sociétés pour l’utilisation de leur travail dans la création d’outils d’IA.

Dans une plainte déposée mardi, Huckabee et d’autres auteurs, dont l’écrivaine chrétienne Lysa TerKeurst, affirment que leurs livres ont été piratés et utilisés dans des ensembles de données permettant d’entraîner des modèles d’IA. EleutherAI, un groupe de recherche en intelligence artificielle, est également cité dans la poursuite, tout comme Bloomberg.

Le recours collectif proposé est le dernier exemple d’auteurs alléguant que des entreprises technologiques ont utilisé leurs travaux sans autorisation pour former des modèles d’IA génératifs. Au cours des derniers mois, une série d’auteurs populaires, dont George RR Martin, Jodi Picoult et Michael Chabon, ont poursuivi OpenAI pour violation du droit d’auteur.

L’affaire Huckabee se concentre sur une mine de données controversée appelée « Books3 » qui contient plus de 180 000 œuvres qui font partie de l’ensemble de données utilisé pour former de grands modèles de langage. En août, L’Atlantique publié une base de données consultable de tous les titres de Books3 avec des informations sur l’auteur. Books3 fait partie d’une plus grande montagne de données appelée Pile, créée par EleutherAI, qui, selon la poursuite, a été utilisée par les entreprises pour former leurs produits.

« [Meta and Microsoft] « Nous avons pu incorporer des ensembles de données sophistiqués, qui comprenaient des documents piratés protégés par le droit d’auteur dans Books3, dans le cadre du processus de formation du LLM, sans avoir à rémunérer les auteurs », indique le procès.

Microsoft a refusé de commenter cette histoire. Meta, Bloomberg et EleutherAI n’ont pas répondu aux demandes de commentaires.

Les entreprises d’IA s’appuient sur d’énormes quantités de données publiques pour former des modèles d’IA – pas seulement des livres mais aussi des photographies, des œuvres d’art, de la musique, etc. À mesure que des outils comme ChatGPT ou Stable Diffusion sont devenus facilement accessibles, il y a eu un débat houleux (et de nombreuses poursuites judiciaires) sur la manière dont les personnes qui fournissent ces données devraient être rémunérées. En janvier, Getty Images a poursuivi la société à l’origine de l’outil artistique d’IA Stable Diffusion, affirmant qu’elle avait copié illégalement des millions d’images protégées par le droit d’auteur pour entraîner son modèle.

source site-132