Un législateur américain propose une base de données publique de tout le matériel de formation en IA

Au milieu d’une vague de poursuites concernant les données de formation des modèles d’IA, le représentant américain Adam Schiff (Démocrate de Californie) a présenté un projet de loi qui obligerait les sociétés d’IA à divulguer exactement quelles œuvres protégées par le droit d’auteur sont incluses dans les ensembles de données de formation des systèmes d’IA.

La loi sur la divulgation de l’IA générative « exigerait qu’un avis soit soumis au registre des droits d’auteur avant la publication d’un nouveau système d’IA générative concernant toutes les œuvres protégées par le droit d’auteur utilisées pour créer ou modifier l’ensemble de données de formation pour ce système », a déclaré Schiff dans un communiqué de presse.

Le projet de loi est rétroactif et s’appliquerait à tous les systèmes d’IA disponibles aujourd’hui, ainsi qu’à tous les systèmes d’IA à venir. Il entrerait en vigueur 180 jours après sa promulgation, obligeant toute personne créant ou modifiant un ensemble de formation non seulement à répertorier les travaux référencés par l’ensemble de données, mais également à fournir une URL vers l’ensemble de données dans les 30 jours précédant la publication du système d’IA. . Cette URL donnerait probablement aux créateurs un moyen de vérifier si leurs documents ont été utilisés et de demander un crédit ou une compensation disponible avant que les outils d’IA ne soient utilisés.

Tous les avis seraient conservés dans une base de données en ligne accessible au public.

Schiff a décrit la loi comme défendant « l’innovation tout en protégeant les droits et les contributions des créateurs, en veillant à ce qu’ils soient conscients lorsque leur travail contribue aux ensembles de données de formation à l’IA ».

« Il s’agit de respecter la créativité à l’ère de l’IA et de marier progrès technologique et équité », a déclaré Schiff.

Actuellement, les créateurs qui n’ont pas accès aux ensembles de données de formation s’appuient sur les résultats des modèles d’IA pour déterminer si leurs œuvres protégées par le droit d’auteur ont pu être incluses dans la formation de divers systèmes d’IA. Le New York Times, par exemple, a incité ChatGPT à cracher des extraits de ses articles, en s’appuyant sur une tactique visant à identifier les données d’entraînement en demandant à ChatGPT de produire des lignes à partir d’articles spécifiques, ce qu’OpenAI a curieusement décrit comme du « piratage ».

En vertu de la loi de Schiff, le New York Times devrait consulter la base de données pour identifier tous les articles utilisés pour entraîner ChatGPT ou tout autre système d’IA.

Tout fabricant d’IA qui enfreindrait la loi s’exposerait à une « sanction civile d’un montant d’au moins 5 000 dollars », indique le projet de loi.

Lors d’une audience sur l’intelligence artificielle et la propriété intellectuelle, le représentant Darrell Issa (Républicain de Californie) – qui préside la sous-commission judiciaire de la Chambre sur les tribunaux, la propriété intellectuelle et Internet – a déclaré à Schiff que sa sous-commission examinerait le projet de loi « réfléchi ».

Schiff a déclaré au sous-comité que le projet de loi n’est « qu’un premier pas » pour « garantir qu’au minimum » les créateurs soient « conscients du moment où leur travail contribue aux ensembles de données de formation à l’IA », affirmant qu’il « accueillerait avec plaisir l’opportunité de travailler avec des membres de le sous-comité » pour faire avancer le projet de loi.

« Le développement rapide des technologies d’IA générative a dépassé les lois existantes sur le droit d’auteur, ce qui a conduit à une utilisation généralisée du contenu créatif pour former des modèles d’IA générative sans consentement ni compensation », a averti Schiff lors de l’audience.

Dans le communiqué de presse de Schiff, Meredith Stiehm, présidente de la Writers Guild of America West, s’est jointe aux dirigeants d’autres groupes créatifs célébrant le projet de loi comme une « première étape importante » pour les titulaires de droits.

« Une plus grande transparence et des garde-fous autour de l’IA sont nécessaires pour protéger les écrivains et autres créateurs » et lutter contre « l’utilisation sans précédent et non autorisée de matériels protégés par le droit d’auteur pour former des systèmes d’IA générative », a déclaré Stiehm.

Jusqu’à ce que les questions les plus épineuses du droit d’auteur sur l’IA soient réglées, Ken Doroshow, directeur juridique de la Recording Industry Association of America, a suggéré que le projet de loi de Schiff comblait une lacune importante en introduisant « une tenue de registres complète et transparente » qui fournirait « l’un des éléments de construction les plus fondamentaux » obstacles à l’application effective des droits des créateurs.

Moiya McTier, conseillère principale de la Human Artistry Campaign, est allée plus loin, célébrant le projet de loi comme empêchant les sociétés d’IA d' »exploiter » les artistes et les créateurs.

« Les entreprises d’IA devraient cesser de cacher la balle lorsqu’elles copient des œuvres créatives dans des systèmes d’IA et adopter des règles de conduite claires en matière de tenue de registres qui créent des règles du jeu équitables et transparentes pour le développement et l’octroi de licences d’applications et d’outils véritablement innovants », a déclaré McTier.

Des conseils sur les droits d’auteur de l’IA seront bientôt disponibles

Alors que les tribunaux examinent les questions de droit d’auteur soulevées par les artistes, les auteurs de livres et les journaux, le Bureau américain du droit d’auteur a annoncé en mars qu’il publierait des directives plus tard cette année, mais le bureau ne semble pas donner la priorité aux questions relatives à la formation en IA.

Au lieu de cela, le Bureau du droit d’auteur se concentrera d’abord sur la publication de directives sur les deepfakes et les résultats de l’IA. Ce printemps, le bureau publiera un rapport « analysant l’impact de l’IA sur le droit d’auteur » des « répliques numériques, ou de l’utilisation de l’IA pour reproduire numériquement l’apparence, la voix ou d’autres aspects de leur identité d’individus ». Au cours de l’été, un autre rapport se concentrera sur « la protection des droits d’auteur des œuvres intégrant du matériel généré par l’IA ».

Concernant « le sujet de la formation des modèles d’IA sur les œuvres protégées par le droit d’auteur ainsi que les éventuelles considérations de licence et les questions de responsabilité », le Bureau du droit d’auteur n’a pas fourni de calendrier pour la publication de directives, confirmant seulement que son « objectif est de finaliser l’intégralité du rapport d’ici la fin de l’année ». l’année fiscale. »

Une fois que des orientations seront disponibles, elles pourraient influencer les opinions des tribunaux, même si les tribunaux ne doivent pas nécessairement appliquer les orientations du Copyright Office lors de l’évaluation des cas.

Le calendrier ambitieux du Bureau du droit d’auteur semble être en avance sur le moment où au moins certains tribunaux devraient se prononcer sur certaines des plus grandes questions de droit d’auteur pour certains créateurs. Le recours collectif intenté par les auteurs de livres contre OpenAI, par exemple, ne devrait pas être résolu avant février 2025, et le procès du New York Times suivra probablement un calendrier similaire. Cependant, les artistes poursuivant Stability AI feront face à une audience sur la requête en rejet de cette société d’IA en mai prochain.

Source-147