Nvidia poursuivi en justice pour les données de formation de l’IA alors que les conflits de droits d’auteur se poursuivent

Les auteurs de livres poursuivent Nvidia, alléguant que la plate-forme d’IA NeMo du fabricant de puces, utilisée pour alimenter des chatbots personnalisés, a été formée sur un ensemble de données controversé qui a copié et distribué illégalement leurs livres sans leur consentement.

Dans le cadre d’un recours collectif proposé, les romanciers Abdi Nazemian (Comme un Amour Histoire), Brian Keene (Marche des fantômes), et Stewart O’Nan (Hier soir au homard) a fait valoir que Nvidia devrait payer des dommages-intérêts et détruire toutes les copies de l’ensemble de données Books3 utilisé pour alimenter les grands modèles de langage (LLM) de NeMo.

Selon les romanciers, l’ensemble de données Books3 copiait « l’intégralité de Bibliotek », une bibliothèque fantôme d’environ 196 640 livres piratés. Initialement partagé via la communauté d’IA Hugging Face, l’ensemble de données Books3 « est aujourd’hui disparu et n’est plus accessible en raison d’une violation du droit d’auteur », indique le site Web Hugging Face.

Selon les auteurs, Hugging Face a supprimé l’ensemble de données en octobre dernier, mais pas avant que des sociétés d’IA comme Nvidia ne l’aient récupéré et « en aient fait plusieurs copies ». En entraînant les modèles NeMo sur cet ensemble de données, les auteurs ont allégué que Nvidia « avait violé leurs droits exclusifs en vertu de la loi sur le droit d’auteur ». Les auteurs ont fait valoir que le tribunal de district américain de San Francisco devait intervenir et arrêter Nvidia parce que la société « a continué à faire des copies des œuvres contrefaites pour former d’autres modèles ».

Un porte-parole de Hugging Face a précisé à Ars que « Hugging Face n’a jamais supprimé cet ensemble de données et nous n’avons pas hébergé l’ensemble de données Books3 sur le Hub ». Au lieu de cela, « Hugging Face a hébergé un script qui télécharge les données de The Eye, qui est l’endroit où ELeuther a hébergé les données », jusqu’à ce que « Eleuther ait supprimé les données de The Eye » pour des raisons de droits d’auteur, provoquant la rupture du script de l’ensemble de données sur Hugging Face. .

Le porte-parole de Nvidia a déclaré au Wall Street Journal que « nous respectons les droits de tous les créateurs de contenu et pensons avoir créé NeMo en totale conformité avec la loi sur le droit d’auteur ».

Exigeant un procès devant jury, les auteurs espèrent que le tribunal décidera que Nvidia n’a aucune défense possible pour avoir prétendument violé les droits d’auteur et avoir l’intention de « provoquer de nouvelles violations » en distribuant des modèles NeMo « comme base à partir de laquelle construire d’autres modèles ».

Les modèles d’IA diminuent la transparence au milieu des poursuites

Le recours collectif a été déposé par la même équipe juridique représentant les auteurs poursuivant OpenAI, dont le procès a récemment vu de nombreuses réclamations rejetées, mais surtout pas leur allégation de violation directe du droit d’auteur. Les avocats ont déclaré à Ars le mois dernier que les auteurs modifieraient leurs plaintes contre OpenAI et étaient « impatients d’aller de l’avant et de plaider » leur plainte directe pour violation du droit d’auteur.

Dans ce procès, les auteurs ont allégué une violation du droit d’auteur à la fois lorsque OpenAI a formé des LLM et lorsque des chatbots ont référencé des livres dans leurs résultats. Mais les auteurs semblaient plus préoccupés par les dommages présumés causés par les résultats des chatbots, avertissant que les outils d’IA avaient une « capacité étrange à générer un texte similaire à celui trouvé dans des documents textuels protégés par le droit d’auteur, y compris des milliers de livres ».

Fait unique, dans le procès Nvidia, les auteurs se concentrent exclusivement sur les données de formation de Nvidia, apparemment préoccupés par le fait que Nvidia puisse permettre aux entreprises de créer un certain nombre de modèles d’IA sur l’ensemble de données controversé, ce qui pourrait affecter des milliers d’auteurs dont les œuvres pourraient être largement violées rien qu’en former ces modèles.

On ne sait pas encore comment les tribunaux se prononceront sur les revendications directes de droits d’auteur dans l’un ou l’autre procès – ou dans le procès du New York Times contre OpenAI – mais jusqu’à présent, OpenAI n’a pas réussi à convaincre les tribunaux de rejeter les réclamations.

Cependant, OpenAI ne semble pas très ébranlé par les poursuites. En février, OpenAI a déclaré qu’elle espérait rejeter la plainte pour violation directe du droit d’auteur des auteurs de livres à un « stade ultérieur » de l’affaire et, plus récemment dans l’affaire du New York Times, elle a tenté de convaincre le tribunal que le NYT avait « piraté » ChatGPT pour  » monter » le procès.

Et Microsoft, co-accusé dans le procès du New York Times, a introduit encore plus récemment un nouvel argument qui pourrait aider les entreprises technologiques à vaincre les poursuites pour droits d’auteur concernant les LLM. Le mois dernier, Microsoft a affirmé que le New York Times tentait d’arrêter une « nouvelle technologie révolutionnaire » et qu’il échouerait, tout comme les producteurs de films tentaient de tuer le magnétoscope dans les années 1980.

« Malgré les affirmations du Times, la loi sur le droit d’auteur n’est pas plus un obstacle au LLM qu’elle ne l’était au magnétoscope (ou au piano mécanique, à la photocopieuse, à l’ordinateur personnel, à Internet ou au moteur de recherche) », a écrit Microsoft.

En décembre, Yacine Jernite, responsable de l’apprentissage automatique et de la société chez Hugging Face, a noté que les développeurs semblaient de moins en moins transparents sur les données de formation après que des poursuites en matière de droits d’auteur aient déclenché des signaux d’alarme concernant les entreprises utilisant l’ensemble de données Books3, « en particulier pour les modèles commerciaux ».

Meta, par exemple, « limitait la quantité d’informations [it] divulgué « son LLM, Llama-2″, en un seul paragraphe de description et une page supplémentaire d’analyse de sécurité et de biais – après [its] L’utilisation de l’ensemble de données Books3 lors de la formation du premier modèle Llama a été évoquée dans un procès pour droits d’auteur », a écrit Jernite.

Jernite a averti que les modèles d’IA manquant de transparence pourraient entraver « la capacité des garanties réglementaires à rester pertinentes à mesure que les méthodes de formation évoluent, des individus à garantir que leurs droits sont respectés, et de la science ouverte et du développement à jouer leur rôle en permettant une gouvernance démocratique des nouvelles technologies ». « . Pour soutenir « plus de responsabilité », Jernite a recommandé « des normes minimales de transparence publique significatives pour soutenir une réglementation efficace de l’IA », ainsi que des entreprises offrant la possibilité à quiconque de refuser que ses données soient incluses dans les données de formation.

« Une plus grande transparence des données soutient une meilleure gouvernance et favorise le développement technologique qui respecte de manière plus fiable les droits des peuples », a écrit Jernite.

Source-147