Des milliers d’auteurs signent une lettre exhortant les fabricants d’IA à cesser de voler des livres

Si vous demandez à GPT-4 de faire un passage dans le style de Carmen Machado ou Margaret Atwood ou Alexander Chee, il fera un bon travail, et pour une bonne raison : il a probablement ingéré toutes leurs œuvres dans le processus de formation, et maintenant utilise leur ingéniosité pour la sienne. Mais ces auteurs, et des milliers d’autres, ne sont pas satisfaits de ce fait.

Dans une lettre ouverte signée par plus de 8 500 auteurs de fiction, de non-fiction et de poésie, les entreprises technologiques à l’origine de grands modèles linguistiques comme ChatGPT, Bard, LLaMa et bien d’autres sont réprimandées pour avoir utilisé leur écriture sans autorisation ni compensation.

« Ces technologies imitent et régurgitent notre langage, nos histoires, notre style et nos idées. Des millions de livres, d’articles, d’essais et de poésie protégés par le droit d’auteur fournissent la «nourriture» des systèmes d’IA, des repas sans fin pour lesquels il n’y a pas eu de facture », indique la lettre.

Bien que leurs systèmes s’avèrent capables de citer et d’imiter les auteurs en question, les développeurs d’IA n’ont pas abordé de manière substantielle la provenance de ces œuvres. Sont-ils formés sur des échantillons extraits de librairies et de revues ? Ont-ils emprunté tous les livres de la bibliothèque ? Ou peut-être ont-ils simplement téléchargé l’une des nombreuses archives illégales, comme Libgen ?

Une chose est certaine : ils ne se sont pas adressés aux éditeurs pour leur accorder une licence – sans aucun doute la méthode préférée, et sans doute la seule légale et éthique. Comme l’écrivent les auteurs :

Non seulement la récente décision de la Cour suprême dans l’affaire Warhol c. Goldsmith indique clairement que la forte commercialité de votre utilisation va à l’encontre de l’utilisation équitable, mais aucun tribunal n’excuserait la copie d’œuvres d’origine illégale comme une utilisation équitable. En raison de l’intégration de nos écrits dans vos systèmes, l’IA générative menace de nuire à notre profession en inondant le marché de livres médiocres écrits à la machine, d’histoires et de journalisme basés sur notre travail.

En effet, nous avons déjà vu cela se produire. Récemment, un certain nombre d’œuvres générées par l’IA de très faible qualité ont été grimper les listes de best-sellers YA sur Amazon; les éditeurs sont inondés d’œuvres générées ; et chaque jour, ce site Web (et sous peu, ce message) est récupéré pour que le contenu soit réutilisé en ami pour le référencement.

Ces acteurs malveillants utilisent les outils, les API et les agents développés par OpenAI et Meta, qui peuvent eux-mêmes être considérés comme des acteurs malveillants dans ce contexte. Après tout, qui d’autre volerait sciemment des millions d’œuvres pour alimenter un nouveau produit commercial ? (Eh bien, Google, bien sûr – mais l’indexation de la recherche est significativement différente de l’ingestion de l’IA, et Google Livres avait au moins l’excuse qu’il était censé être un index dédié.)

Avec moins d’auteurs capables de gagner leur vie en écrivant en raison de la complexité et des marges étroites de l’édition à grande échelle, la lettre ouverte avertit qu’il s’agit d’une situation intenable pour eux, en particulier les auteurs les plus récents, « en particulier les jeunes écrivains et les voix des communautés sous-représentées .”

La lettre demande aux entreprises de faire ce qui suit :

1. Obtenez l’autorisation d’utiliser notre matériel protégé par le droit d’auteur dans vos programmes d’IA générative.

2. Rémunérez équitablement les auteurs pour l’utilisation passée et actuelle de nos travaux dans vos programmes d’IA générative.

3. Rémunérer équitablement les écrivains pour l’utilisation de nos œuvres dans la sortie de l’IA, que les sorties enfreignent ou non la loi en vigueur.

Aucune menace légale n’est faite – comme le PDG de The Author’s Guild (et signataire) Mary Rasenberger a déclaré à NPR, « Les poursuites judiciaires représentent une somme d’argent énorme. Ils prennent vraiment beaucoup de temps. Et l’IA nuit maintenant aux auteurs.

Quelle entreprise sera la première à dire « oui, nous avons construit notre IA sur des œuvres volées et nous sommes désolés, et nous allons payer pour cela » ? C’est à deviner, mais il semble y avoir peu d’incitation à le faire. La plupart des gens ne savent pas ou ne s’inquiètent pas du fait que les LLM sont créés par des moyens illicites et qu’ils peuvent en fait contenir et régurgiter des œuvres protégées par le droit d’auteur. Il est plus facile de voir le problème (très similaire) lorsqu’il s’agit d’une image générée reproduisant le style distinctif d’un artiste, et qu’il y a un certain recul.

Mais le mal plus subtil d’utiliser tous les livres de George Saunders ou de Diana Gabaldon comme «nourriture» pour son IA peut ne pas inciter autant de personnes à l’action – même si de nombreux auteurs sont prêts à se battre.

Source-146