vendredi, novembre 15, 2024

Le New York Times veut qu’OpenAI et Microsoft paient pour les données de formation

Le New York Times poursuit OpenAI et son proche collaborateur (et investisseur), Microsoft, pour avoir prétendument violé la loi sur le droit d’auteur en entraînant des modèles d’IA génératifs sur le contenu du Times.

Dans le procès intenté devant le tribunal fédéral de Manhattan, le Times affirme que des millions de ses articles ont été utilisés pour entraîner des modèles d’IA, y compris ceux qui sous-tendent le très populaire ChatGPT d’OpenAI et le Copilot de Microsoft, sans son consentement. Le Times appelle OpenAI et Microsoft à « détruire » les modèles et les données de formation contenant le matériel incriminé et à être tenus responsables de « des milliards de dollars de dommages légaux et réels » liés à « la copie et l’utilisation illégales des œuvres d’une valeur unique du Times ». .»

« Si le Times et d’autres organes de presse ne peuvent pas produire et protéger leur journalisme indépendant, il y aura un vide qu’aucun ordinateur ou intelligence artificielle ne pourra combler », peut-on lire dans la plainte du Times. « Il y aura moins de journalisme et le coût pour la société sera énorme. »

Dans une déclaration envoyée par courrier électronique, un porte-parole d’OpenAI a déclaré : « Nous respectons les droits des créateurs et des propriétaires de contenu et nous nous engageons à travailler avec eux pour garantir qu’ils bénéficient de la technologie de l’IA et de nouveaux modèles de revenus. Nos conversations en cours avec le New York Times ont été productives et progressent de manière constructive, nous sommes donc surpris et déçus de cette évolution. Nous espérons trouver une manière mutuellement avantageuse de travailler ensemble, comme nous le faisons avec de nombreux autres éditeurs.

Les modèles d’IA générative « apprennent » à partir d’exemples pour créer des essais, du code, des e-mails, des articles et bien plus encore, et des fournisseurs comme OpenAI fouillent le Web pour trouver des millions, voire des milliards de ces exemples à ajouter à leurs ensembles de formation. Certains exemples sont dans le domaine public. D’autres ne le sont pas ou sont soumis à des licences restrictives qui nécessitent une citation ou des formes de compensation spécifiques.

Les fournisseurs affirment que la doctrine de l’utilisation équitable offre une protection globale à leurs pratiques de web-scraping. Les détenteurs de droits d’auteur ne sont pas d’accord ; des centaines d’organismes de presse utilisent désormais du code pour empêcher OpenAI, Google et d’autres d’analyser leurs sites Web à la recherche de données de formation.

Le conflit entre vendeurs et points de vente a donné lieu à un nombre croissant de batailles juridiques, celle du Times étant la dernière en date.

L’actrice Sarah Silverman s’est jointe à deux poursuites en juillet accusant Meta et OpenAI d’avoir « ingéré » les mémoires de Silverman pour entraîner leurs modèles d’IA. Dans un autre procès, des milliers de romanciers, dont Jonathan Franzen et John Grisham, affirment qu’OpenAI a obtenu leur travail sous forme de données de formation sans leur permission ni leur connaissance. Et plusieurs programmeurs ont une plainte en cours contre Microsoft, OpenAI et GitHub au sujet de Copilot, un outil de génération de code alimenté par l’IA, qui, selon les plaignants, a été développé à l’aide de leur code protégé par IP.

Bien que le Times ne soit pas le premier à poursuivre en justice les fournisseurs d’IA générative pour violations présumées de la propriété intellectuelle impliquant des œuvres écrites, il est le plus grand éditeur impliqué dans une telle poursuite à ce jour – et l’un des premiers à souligner les dommages potentiels causés à sa marque par le biais d’« hallucinations ». ou des faits inventés à partir de modèles d’IA génératifs.

La plainte du Times cite plusieurs cas dans lesquels Bing Chat de Microsoft (maintenant appelé Copilot), qui repose sur un modèle OpenAI, a fourni des informations incorrectes qui proviendraient du Times – y compris des résultats pour « les 15 aliments les plus sains pour le cœur ». », dont 12 n’ont été mentionnés dans aucun article du Times.

Le Times fait également valoir qu’OpenAI et Microsoft créent effectivement des concurrents en matière d’éditeurs de presse en utilisant les travaux du Times, nuisant ainsi aux activités du Times en fournissant des informations qui ne pourraient normalement pas être accessibles sans abonnement – des informations qui ne sont pas toujours citées. , parfois monétisés et dépourvus de liens d’affiliation que le Times utilise d’ailleurs pour générer des commissions.

Comme le fait allusion la plainte du Times, les modèles d’IA génératifs ont tendance à régurgiter les données d’entraînement, par exemple en reproduisant presque textuellement les résultats d’articles. Au-delà de la régurgitation, OpenAI a, à au moins une occasion, permis par inadvertance aux utilisateurs de ChatGPT de contourner le contenu d’actualités payant.

« Les accusés cherchent à profiter de l’investissement massif du Times dans son journalisme », indique la plainte, accusant OpenAI et Microsoft d' »utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent des audiences ».

Les impacts sur le secteur des abonnements à l’actualité – et sur le trafic Web des éditeurs – sont au cœur d’une poursuite tangentiellement similaire déposée par les éditeurs plus tôt dans le mois contre Google. Dans cette affaire, les accusés, comme le Times, ont fait valoir que les expériences GenAI de Google, y compris son chatbot Bard alimenté par l’IA et Search Generative Experience, siphonnent le contenu des éditeurs, les lecteurs et les revenus publicitaires par des moyens anticoncurrentiels.

Il y a du crédit aux affirmations des éditeurs. Un modèle récent de The Atlantic a révélé que si un moteur de recherche comme Google intégrait l’IA dans la recherche, il répondrait à la requête d’un utilisateur 75 % du temps sans nécessiter de clic vers son site Web. Les éditeurs impliqués dans la poursuite de Google estiment qu’ils perdraient jusqu’à 40 % de leur trafic.

Cela ne veut pas dire qu’ils auront gain de cause devant les tribunaux. Heather Meeker, associée fondatrice d’OSS Capital et conseillère sur les questions de propriété intellectuelle, y compris les accords de licence, a comparé l’exemple de régurgitation du Times à « l’utilisation d’un traitement de texte pour couper et coller ».

« Dans la plainte, le New York Times donne un exemple d’une session ChatGPT concernant une critique de restaurant de 2012″, a déclaré Meeker à TechCrunch par e-mail. « L’invite de ChatGPT est « Quels étaient les premiers paragraphes de sa critique ? » Les invites suivantes demandent alors à plusieurs reprises « la phrase suivante ». Inciter un chatbot à reproduire une entrée n’est pas une base raisonnable pour violation du droit d’auteur… Si l’utilisateur fait intentionnellement la copie du chatbot, c’est la faute de l’utilisateur. Et c’est pourquoi la plupart [lawsuits like this] échouera probablement.

Certains médias, plutôt que de combattre les fournisseurs d’IA générative devant les tribunaux, ont choisi de signer des accords de licence avec eux. L’Associated Press a conclu un accord en juillet avec OpenAI, et Axel Springer, l’éditeur allemand propriétaire de Politico et Business Insider, a fait de même ce mois-ci.

Dans sa plainte, le Times affirme avoir tenté de parvenir à un accord de licence avec Microsoft et OpenAI en avril, mais que les négociations n’ont finalement pas abouti.

Mis à jour à 16 h 24, heure de l’Est, avec un contexte supplémentaire et des commentaires d’OpenAI.

Source-146

- Advertisement -

Latest