Un certain nombre d’artistes visuels ont intenté une action en justice pour l’utilisation de leurs images comme données de formation pour les générateurs de texte à image. Maintenant, deux romanciers bien connus ont déposé leur propre recours collectif contre OpenAI, accusant la société derrière ChatGPT et Bing Chat de violation du droit d’auteur parce qu’elle aurait utilisé leurs livres comme données de formation. Cela semble être le premier procès intenté pour l’utilisation de texte (par opposition à des images ou à du code) utilisé comme données de formation.
Dans le procès intenté devant le tribunal de district des États-Unis du district nord de la Californie, les plaignants Paul Tremblay et Mona Awad allèguent qu’OpenAI et ses filiales ont commis une violation du droit d’auteur, violé le Digital Millennium Copyright Act et ont également enfreint les restrictions de la Californie et de la common law sur concurrence déloyale. Les rédacteurs sont représentés par le cabinet d’avocats Joseph Saveri et Matthew Butterick, la même équipe à l’origine des récentes poursuites intentées contre Diffusion AI et GitHub (sur le copilote de GitHub).
La plainte allègue que le roman de Tremblay La cabane du bout du monde et deux des romans d’Awad : 13 façons de regarder une grosse fille et Lapin ont été utilisées comme données d’entraînement pour GPT-3.5 et GPT-4. Bien qu’OpenAI n’ait pas révélé que les romans protégés par le droit d’auteur se trouvent dans ses données de formation (qui sont gardées secrètes), les plaignants concluent qu’ils doivent l’être parce que ChatGPT a pu fournir des résumés détaillés de l’intrigue et répondre aux questions sur les livres, un exploit qui l’exigerait. d’avoir accès aux textes complets.
« Parce que les modèles de langage OpenAI ne peuvent pas fonctionner sans les informations expressives extraites des œuvres des demandeurs (et d’autres) et conservées à l’intérieur, les modèles de langage OpenAI enfreignent eux-mêmes des œuvres dérivées, réalisées sans l’autorisation des demandeurs et en violation de leurs droits exclusifs en vertu du Loi sur le droit d’auteur », indique la plainte.
Les trois livres contiennent également des informations sur la gestion des droits d’auteur (CMI), telles que l’ISBN et les numéros d’enregistrement des droits d’auteur. Le Digital Millennium Copyright Act (DMCA) stipule que la suppression ou la falsification de CMI est illégale et, puisque la sortie de ChatGPT ne contient pas ces informations, les plaignants allèguent qu’OpenAI est coupable d’avoir violé le DMCA en plus d’une violation régulière du droit d’auteur.
Bien que le procès ne compte actuellement que deux plaignants, les avocats demandent le statut de recours collectif qui permettrait à d’autres auteurs dont les œuvres protégées par le droit d’auteur sont utilisées par OpenAI de percevoir également des dommages-intérêts. Les avocats demandent des dommages-intérêts, des frais de justice et une injonction forçant OpenAI à modifier ses logiciels et ses pratiques commerciales concernant le matériel protégé par le droit d’auteur.
Nous avons contacté Butterick pour obtenir des commentaires sur le procès et il nous a renvoyés à son site Web, LLM Litigation, qui contient une explication détaillée de la position des plaignants et des raisons pour lesquelles ils poursuivent.
« Nous avons déposé un recours collectif contre OpenAI contestant ChatGPT et ses grands modèles de langage sous-jacents, GPT-3.5 et GPT-4, qui remixent les œuvres protégées par le droit d’auteur de milliers d’auteurs de livres – et bien d’autres – sans consentement, compensation ou crédit », écrivent les avocats.
Ils critiquent également le concept d’IA générative, écrivant que « l’intelligence artificielle générative » n’est que l’intelligence humaine, reconditionnée et séparée de ses créateurs. »
Comme le procès de Saveri et Butterick contre Stability AI pour avoir utilisé des images protégées par le droit d’auteur comme données de formation, celui-ci repose sur la conviction que saisir du texte sur Internet pour alimenter un LLM n’est pas un usage loyal. C’est une question à laquelle le tribunal n’a pas encore répondu.
Dans une affaire de 2006, Blake contre Google, un écrivain a poursuivi le moteur de recherche pour avoir mis en cache son travail et rendu les versions mises en cache disponibles via la recherche. Cependant, un tribunal de district américain a rejeté la poursuite, estimant que la mise en cache des données par Google était un usage loyal. Le juge Robert C. Jones a écrit que la conservation de documents en cache est une utilisation transformatrice (l’un des quatre facteurs utilisés pour déterminer l’utilisation équitable) et qu’elle ne nuit pas au marché potentiel de l’œuvre (un autre facteur). Ainsi, le simple stockage de données protégées par le droit d’auteur sur son serveur sous la forme d’un cache n’engageait pas la responsabilité de Google.
Cependant, l’utilisation d’une œuvre créative protégée par des droits d’auteur comme données de formation est assez différente de l’indexation de contenu pour la recherche. On pourrait dire que si le LLM est capable de répéter des détails clés du livre, cela nuit au marché de ces œuvres et ce n’est pas vraiment transformateur. D’autre part, si un être humain écrit un résumé de l’intrigue d’un livre, cela ne va généralement pas à l’encontre de la loi sur le droit d’auteur. En fin de compte, ces questions vont être tranchées à cause de poursuites comme celle-ci.
OpenAI n’est pas la seule entreprise à utiliser du matériel protégé par le droit d’auteur pour la formation ou même la sortie. Google SGE, la nouvelle expérience de recherche de l’entreprise, plagie souvent des phrases entières et des paragraphes mot à mot à partir d’articles protégés par le droit d’auteur. Ce qui se passe dans cette poursuite pourrait avoir un impact beaucoup plus large sur l’industrie de l’IA générative.