Quelques semaines seulement après avoir été poursuivi en justice par le New York Times pour des allégations selon lesquelles il aurait copié et utilisé « des millions » d’articles de presse protégés par le droit d’auteur pour former ses modèles en grand langage, OpenAI a déclaré au comité spécial des communications et du numérique de la Chambre des Lords du Royaume-Uni (via The Guardian) qu’il doit utiliser du matériel protégé par le droit d’auteur pour construire ses systèmes, sinon ils ne fonctionneront tout simplement pas.
Les modèles en grand langage (LLM) qui constituent la base des systèmes d’IA comme le chatbot ChatGPT d’OpenAI récoltent d’énormes quantités de données à partir de sources en ligne afin d’« apprendre » comment fonctionner. Cela devient un problème lorsque les questions de droit d’auteur entrent en jeu. Le procès du Times, par exemple, affirme que Microsoft et OpenAI « cherchent à profiter de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement ».
Ce n’est pas le seul à contester cette approche : un groupe de 17 auteurs, dont John Grisham et George RR Martin, ont porté plainte contre OpenAI en 2023, l’accusant de « vol systématique à grande échelle ».
Dans sa présentation à la Chambre des Lords, OpenAI ne nie pas l’utilisation de matériels protégés par le droit d’auteur, mais affirme plutôt qu’il s’agit d’un usage loyal – et de toute façon, il n’a tout simplement pas le choix. « Parce que le droit d’auteur couvre aujourd’hui pratiquement toutes les formes d’expression humaine, y compris les articles de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux, il serait impossible de former les principaux modèles d’IA actuels sans utiliser de matériel protégé par le droit d’auteur », écrit-il.
« Limiter les données de formation aux livres et dessins du domaine public créés il y a plus d’un siècle pourrait donner lieu à une expérience intéressante, mais ne fournirait pas de systèmes d’IA répondant aux besoins des citoyens d’aujourd’hui. »
Je ne trouve pas que ce soit un argument particulièrement convaincant. Si, par exemple, je me faisais arrêter en renversant une banque, je ne pense pas que cela aurait beaucoup de poids auprès des flics si je leur disais que c’est le seul moyen de me procurer l’argent qui répond à mes besoins. C’est certes un peu simpliste, et il est possible que les avocats d’OpenAI soient en mesure de faire valoir avec succès que l’utilisation de matériel protégé par le droit d’auteur sans autorisation pour former ses LLM relève des limites de l’utilisation équitable. Mais à mon oreille, la justification de l’utilisation d’œuvres protégées par le droit d’auteur sans le feu vert du créateur original se résume finalement à : « Mais nous, en réalité, vraiment voulait. »
L’utilisation équitable est au cœur de la position d’OpenAI selon laquelle l’utilisation de matériel protégé par le droit d’auteur n’enfreint aucune règle. Il a déclaré dans son dossier auprès de la Chambre des Lords que « OpenAI se conforme aux exigences de toutes les lois applicables, y compris les lois sur le droit d’auteur », et a approfondi ce point dans une mise à jour publiée aujourd’hui.
« La formation de modèles d’IA à l’aide de documents Internet accessibles au public est une utilisation équitable, comme le soutiennent des précédents de longue date et largement acceptés », a écrit OpenAI. « Nous considérons ce principe comme équitable pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis.
« Le principe selon lequel la formation de modèles d’IA est autorisé en tant qu’utilisation équitable est soutenu par un large éventail d’universitaires, d’associations de bibliothèques, de groupes de la société civile, de startups, de grandes entreprises américaines, de créateurs, d’auteurs et d’autres qui ont récemment soumis des commentaires au US Copyright Office. D’autres régions et pays, notamment l’Union européenne, le Japon, Singapour et Israël, ont également des lois autorisant des modèles de formation sur des contenus protégés par le droit d’auteur, un avantage pour l’innovation, le progrès et l’investissement en matière d’IA.
Nous développons l’IA pour responsabiliser les gens, y compris les journalistes.Notre position sur le procès du @nytimes :• La formation est un usage équitable, mais nous proposons une option de non-participation• La « régurgitation » est un bug rare que nous ramenons à zéro• The New York Times ne raconte pas toute l’histoirehttps://t.co/S6fSaDsfKb8 janvier 2024
OpenAI a également adopté une ligne dure contre le procès du New York Times dans la mise à jour, accusant essentiellement le Times de lui avoir tendu une embuscade au milieu de négociations de partenariat. Tirant peut-être une leçon de Twitter, qui accusait Media Matters de manipuler « des combinaisons inorganiques de publicités et de contenu » afin de faire apparaître des publicités pro-nazies à côté des publications des principaux annonceurs, OpenAI a également déclaré que le Times « manipulait les invites, incluant souvent de longs extraits ». d’articles, afin d’amener notre modèle à régurgiter » son contenu et son style, élément central des plaintes contre l’IA.
« Même en utilisant de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives », a écrit OpenAI.
OpenAI a déclaré dans son dossier à la Chambre des Lords qu’elle « continue de développer des mécanismes supplémentaires pour permettre aux titulaires de droits de se retirer de la formation » et qu’elle poursuit des accords avec diverses agences comme celui qu’elle a signé avec Associated Press en 2023 qui, espère-t-elle, « rapportera ». bientôt des partenariats supplémentaires. Mais pour moi, cela ressemble à une approche « pardon plutôt que permission » : OpenAI est déjà en train de supprimer ces choses de toute façon, donc les agences et les médias pourraient tout aussi bien signer une sorte d’accord avant qu’un tribunal ne décide que les entreprises d’IA peuvent faire ce qu’elles veulent.