La poursuite pour droits d’auteur du New York Times veut qu’OpenAI supprime toutes les instances GPT

Agrandir / Microsoft est cité dans la poursuite pour avoir prétendument construit le système permettant de former des dérivés GPT à l’aide de matériel contrefait.

En août, on a appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d’IA pour détournement de leur contenu. Le Times aurait négocié avec OpenAI concernant la possibilité d’obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Ainsi, huit mois après que l’entreprise aurait envisagé de poursuivre en justice, la plainte a été déposée.

Le Times cible diverses entreprises sous l’égide d’OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l’utilise à la fois pour alimenter son service Copilot et a contribué à fournir l’infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l’utilisation de matériel protégé par le droit d’auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.

Le journalisme coûte cher

Le procès note que le Times dispose d’un personnel important qui lui permet de faire des choses comme consacrer des journalistes à un large éventail de domaines et de s’engager dans un journalisme d’investigation important, entre autres. Grâce à ces investissements, le journal est souvent considéré comme une source faisant autorité sur de nombreux sujets.

Tout cela coûte de l’argent, et le Times gagne cet argent en limitant l’accès à ses reportages via un robuste paywall. De plus, chaque édition imprimée comporte une notification de droit d’auteur, les conditions d’utilisation du Times limitent la copie et l’utilisation de tout matériel publié, et il peut être sélectif quant à la manière dont il autorise ses articles. En plus de générer des revenus, ces restrictions l’aident également à maintenir sa réputation de voix faisant autorité en contrôlant la manière dont ses œuvres apparaissent.

La poursuite allègue que les outils développés par OpenAI compromettent tout cela. « En fournissant du contenu au Times sans la permission ou l’autorisation du Times, les outils des défendeurs sapent et nuisent à la relation du Times avec ses lecteurs et privent le Times de revenus d’abonnement, de licence, de publicité et d’affiliation », affirme la poursuite.

Une partie de l’utilisation non autorisée alléguée par le Times a eu lieu lors de la formation de différentes versions de GPT. Avant GPT-3.5, les informations sur l’ensemble de données de formation étaient rendues publiques. L’une des sources utilisées est une vaste collection de documents en ligne appelée « Common Crawl », qui, selon la poursuite, contient des informations provenant de 16 millions d’enregistrements uniques provenant de sites publiés par le Times. Cela place le Times comme la troisième source la plus référencée, derrière Wikipédia et une base de données de brevets américains.

OpenAI ne divulgue plus autant de détails sur les données utilisées pour la formation des versions GPT récentes, mais tout indique que les articles en texte intégral du NY Times font toujours partie de ce processus (beaucoup plus d’informations à ce sujet dans un instant.) Attendez-vous à un accès aux informations de formation. être un problème majeur lors de la découverte si cette affaire avance.

Pas seulement une formation

Un certain nombre de poursuites ont été intentées concernant l’utilisation de matériel protégé par le droit d’auteur lors de la formation de systèmes d’IA. Mais la poursuite du Times va bien plus loin en montrant comment le matériel ingéré lors de l’entraînement peut ressortir lors de l’utilisation. « Les outils GenAI des accusés peuvent générer un résultat qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif, comme le démontrent de nombreux exemples », affirme la poursuite.

La poursuite allègue – et nous avons pu le vérifier – qu’il est comiquement facile d’amener des systèmes alimentés par GPT à proposer du contenu qui est normalement protégé par le paywall du Times. La poursuite montre un certain nombre d’exemples de GPT-4 reproduisant de grandes sections d’articles presque textuellement.

La poursuite comprend des captures d’écran de ChatGPT recevant le titre d’un article du New York Times et demandant le premier paragraphe, ce qu’il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.

ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. Nous avons entré certaines des invites affichées dans la poursuite et avons été informés « Je recommande de consulter le site Web du New York Times ou d’autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d’auteur.

Demandez un paragraphe et Copilot vous remettra un mur de texte normalement payant.

Demandez un paragraphe et Copilot vous remettra un mur de texte normalement payant.

John Timmer

Mais toutes les lacunes n’ont pas été comblées. La combinaison affiche également les résultats de Bing Chat, rebaptisé depuis Copilot. Nous avons pu vérifier que demander le premier paragraphe d’un article spécifique du Times faisait en sorte que Copilot reproduisait le premier tiers de l’article.

La poursuite rejette les tentatives visant à justifier cela comme une forme d’utilisation équitable. « Publiquement, les accusés insistent sur le fait que leur conduite est protégée en tant qu’« usage loyal » parce que leur utilisation sans licence de contenu protégé par le droit d’auteur pour former des modèles GenAI sert un nouvel objectif « transformateur » », note la poursuite. « Mais il n’y a rien de ‘transformateur’ dans le fait d’utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent du public. »

Dommages à la réputation et autres

Les hallucinations communes à l’IA ont également été critiquées dans le cadre de la poursuite, car elles pourraient potentiellement nuire à la valeur de la réputation du Times et éventuellement nuire à la santé humaine en tant qu’effet secondaire. « Un modèle GPT a complètement fabriqué que « le New York Times a publié un article le 10 janvier 2020, intitulé « Une étude révèle un lien possible entre le jus d’orange et le lymphome non hodgkinien » », affirme la poursuite. « Le Times n’a jamais publié un tel article. « .

De même, en posant des questions sur un article du Times sur les aliments sains pour le cœur, Copilot aurait déclaré qu’il contenait une liste d’exemples (ce qui n’était pas le cas). Lorsqu’on leur a demandé la liste, 80 pour cent des aliments n’étaient même pas mentionnés dans l’article original. Dans un autre cas, des recommandations ont été attribuées à Wirecutter alors que les produits n’avaient même pas été examinés par son personnel.

Comme pour le matériel du Times, il est allégué qu’il est possible d’amener Copilot à proposer de gros morceaux d’articles sur Wirecutter (The Wirecutter appartient au New York Times). Mais la poursuite note que ces extraits d’articles sont dépourvus de liens d’affiliation, gardant Wirecutter de sa principale source de revenus.

La poursuite vise diverses sociétés OpenAI pour avoir développé le logiciel, ainsi que Microsoft, ce dernier à la fois pour avoir offert des services basés sur OpenAI et pour avoir développé les systèmes informatiques permettant d’ingérer du matériel protégé par le droit d’auteur pendant la formation. Les allégations incluent la violation directe, contributive et indirecte du droit d’auteur, ainsi que les violations du DMCA et des marques déposées. Enfin, il dénonce une « concurrence déloyale par détournement de droit commun ».

La poursuite ne vise rien de moins que l’effacement de toutes les instances GPT que les parties ont formées à l’aide de documents du Times, ainsi que la destruction des ensembles de données utilisés pour la formation. Il demande également une injonction permanente pour empêcher qu’un comportement similaire ne se reproduise à l’avenir. Le Times veut aussi de l’argent, beaucoup, beaucoup d’argent : « des dommages-intérêts légaux, des dommages-intérêts compensatoires, une restitution, une restitution et toute autre réparation qui peut être autorisée par la loi ou l’équité ».

Source-147