Un procès intenté la semaine dernière devant le tribunal fédéral de Manhattan par le New York Times affirme que les défendeurs – Microsoft et OpenAI – ont utilisé des millions de ses articles pour former et créer ses grands modèles linguistiques (LLM) et d’autres produits. Le Times réclame des dommages-intérêts de l’ordre de plusieurs milliards de dollars, sans toutefois donner de chiffre précis.
Mais oui, s’il gagne, il faudra obtenir un gain assez important.
« La loi n’autorise pas le type d’infraction systématique et concurrentielle que les défendeurs ont commise », peut-on lire dans la plainte officielle (avertissement pdf). « Cette action vise à les tenir responsables des milliards de dollars de dommages-intérêts légaux et réels qu’ils doivent pour la copie et l’utilisation illégales des œuvres d’une valeur unique du Times. »
Le procès indique que le New York Times était en négociations avec les accusés « depuis des mois » et qu’il cherchait à parvenir à un accord « conformément à son historique de collaboration productive avec de grandes plateformes technologiques pour permettre l’utilisation de son contenu dans de nouveaux médias ». produits numériques. » L’idée avancée dans le document judiciaire est que son objectif était à la fois de tirer une juste valeur de sa contribution à la formation, en raison de la pondération accordée au contenu du Times lors de la formation, et de « faciliter la poursuite d’un écosystème d’information sain ». , et contribuer au développement de la technologie GenAI d’une manière responsable qui profite à la société et soutient un public bien informé.
Pour sa part, une déclaration d’un porte-parole d’OpenAI, Lindsey Held, est citée par l’article du New York Times lui-même comme disant que la société pensait que les négociations avaient été constructives et qu’elle était « surprise et déçue » par le procès.
« Nous espérons trouver une manière mutuellement avantageuse de travailler ensemble », auraient-ils déclaré, « comme nous le faisons avec de nombreux autres éditeurs ».
L’un des aspects les plus intrigants du procès, et sans doute celui qui a énervé le Times, est qu’il semble qu’OpenAI ait accordé un poids particulier au contenu de l’éditeur lors de la formation de ses LLM.
Au cours de la formation de GPT-3 en particulier, le procès indique que l’un des ensembles de données clés (un ensemble pondéré comme étant de haute qualité) utilisait près de 210 000 URL uniques du New York Times, ce qui représentait 1,23 % de toutes les sources de l’ensemble de données.
L’ensemble de données le plus vaste et le plus pondéré utilisé pour entraîner GPT-3 comprend cependant « au moins 16 millions d’enregistrements uniques de contenu du Times à travers News, Cooking, Wirecutter et The Athletic ».
Il poursuit également en déclarant qu’OpenAI lui-même a déclaré que les ensembles de données qu’il considère comme étant de la plus haute qualité sont ensuite échantillonnés plus fréquemment lors de la formation d’un modèle. « De l’aveu même d’OpenAI », lit-on dans le document judiciaire, « un contenu de haute qualité, y compris le contenu du Times, était plus important et plus précieux pour la formation des modèles GPT que le contenu provenant d’autres sources de moindre qualité ».
Ce n’est pas le premier procès contre OpenAI pour violation du droit d’auteur dans la formation de ses LLM, car le Times note qu’il y a également eu un procès intenté par 17 auteurs, dont George RR Martin et John Grisham, contre la société pour « vol systématique d’un ordinateur ». à grande échelle » et un de Getty contre Stability AI, les créateurs du créateur d’images génératives d’IA, Stable Diffusion, sur l’utilisation de ses images dans la formation de son modèle.
Et il est peu probable que ce soit non plus le dernier procès contre les fabricants d’IA. Mais étant donné la réticence apparente des sociétés d’IA à s’attaquer aux problèmes de violation du droit d’auteur et à une compensation équitable pour la formation de leurs produits multimilliardaires elles-mêmes, il semble que les procédures judiciaires pourraient être l’un des rares moyens de les garder sous contrôle.