La bataille juridique d’OpenAI avec le New York Times au sujet des données nécessaires à l’entraînement de ses modèles d’IA pourrait encore se préparer. Mais OpenAI poursuit ses accords avec d’autres éditeurs, notamment certains des plus grands éditeurs de presse français et espagnol.
OpenAI a annoncé mercredi avoir signé des contrats avec Le Monde et Prisa Media pour apporter du contenu d’actualité en français et en espagnol au chatbot ChatGPT d’OpenAI. Dans un article de blog, OpenAI a déclaré que le partenariat mettrait la couverture de l’actualité des organisations – de marques telles que El País, Cinco Días, As et El Huffpost – devant les utilisateurs de ChatGPT là où cela a du sens, et contribuerait également à l’essor d’OpenAI. -volume croissant de données de formation.
OpenAI écrit :
Au cours des prochains mois, les utilisateurs de ChatGPT pourront interagir avec le contenu d’actualité pertinent de ces éditeurs via des résumés sélectionnés avec attribution et des liens améliorés vers les articles originaux, donnant aux utilisateurs la possibilité d’accéder à des informations supplémentaires ou à des articles connexes à partir de leurs sites d’actualités… Nous sommes apporte continuellement des améliorations à ChatGPT et soutient le rôle essentiel de l’industrie de l’information dans la fourniture d’informations faisant autorité en temps réel aux utilisateurs.
Ainsi, à ce stade, OpenAI a révélé des accords de licence avec une poignée de fournisseurs de contenu. C’était maintenant une bonne occasion de faire le point :
- Bibliothèque multimédia Shutterstock (pour les images, les vidéos et les données de formation musicale)
- The Associated Press
- Axel Springer (propriétaire de Politico et Business Insider, entre autres)
- Le Monde
- Prisa Média
Combien OpenAI paie-t-il chacun ? Eh bien, cela ne le dit pas – du moins pas publiquement. Mais nous pouvons estimer.
The Information a rapporté en janvier qu’OpenAI offrait aux éditeurs entre 1 et 5 millions de dollars par an pour accéder aux archives afin de former ses modèles GenAI. Cela ne nous dit pas grand-chose sur le partenariat Shutterstock. Mais en ce qui concerne les licences d’articles – en supposant que les rapports de The Information soient exacts et que ces chiffres n’ont pas changé depuis – OpenAI dépense entre 4 et 20 millions de dollars par an pour les informations.
Cela pourrait représenter quelques centimes pour OpenAI, dont le trésor de guerre s’élève à plus de 11 milliards de dollars et dont les revenus annualisés ont récemment dépassé les 2 milliards de dollars (selon le Financial Times). Mais comme Hunter Walk, partenaire de Homebrew et co-fondateur de Screendoor, l’a récemment pensé, c’est suffisamment important pour potentiellement devancer les rivaux de l’IA qui recherchent également des accords de licence.
Walk écrit sur son blog :
[I]Si l’expérimentation est limitée par des accords de licence à neuf chiffres, nous ne rendons pas service à l’innovation… Les contrôles imposés aux « propriétaires » des données de formation créent une énorme barrière à l’entrée pour les challengers. Si Google, OpenAI et d’autres grandes entreprises technologiques parviennent à établir un coût suffisamment élevé, ils empêchent implicitement toute concurrence future.
Maintenant, la question de savoir s’il existe aujourd’hui une barrière à l’entrée est discutable. De nombreux fournisseurs d’IA, sinon la plupart, ont choisi de risquer la colère des détenteurs de droits de propriété intellectuelle, en choisissant de ne pas accorder de licence pour les données sur lesquelles ils entraînent les modèles d’IA. Il existe des preuves que la plate-forme de génération d’art Midjourney, par exemple, s’entraîne sur les images fixes de films Disney – et Midjourney n’a aucun accord avec Disney.
La question la plus difficile à résoudre est la suivante : les licences devraient-elles simplement être le coût des activités commerciales et de l’expérimentation dans le domaine de l’IA ?
Walk dirait que non. Il plaide en faveur d’une « sphère de sécurité » imposée par les régulateurs qui protégerait tout fournisseur d’IA – ainsi que les petites startups et les chercheurs – de toute responsabilité légale à condition qu’ils respectent certaines normes de transparence et d’éthique.
Il est intéressant de noter que le Royaume-Uni a récemment tenté de codifier quelque chose dans ce sens, en exemptant l’utilisation de l’exploration de textes et de données pour la formation en IA des considérations de droit d’auteur, à condition que ce soit à des fins de recherche. Mais ces efforts ont fini par échouer.
Moi, je ne suis pas sûr d’aller aussi loin que Walk dans sa proposition de « sphère de sécurité » compte tenu de l’impact que l’IA menace d’avoir sur une industrie de l’information déjà déstabilisée. Un modèle récent de The Atlantic a révélé que si un moteur de recherche comme Google intégrait l’IA dans la recherche, il répondrait à la requête d’un utilisateur 75 % du temps sans nécessiter de clic vers son site Web.
Mais peut-être là est place aux exclusions.
Les éditeurs doivent être payés – et payés équitablement. N’y a-t-il pas, cependant, un résultat dans lequel ils seraient payés et les concurrents des acteurs historiques de l’IA – ainsi que les universitaires – auraient accès aux mêmes données ? comme ceux les titulaires ? Je devrais le penser. Les subventions sont un moyen. Les chèques VC plus importants en sont un autre.
Je ne peux pas dire que j’ai la solution, d’autant plus que les tribunaux n’ont pas encore décidé si – et dans quelle mesure – l’utilisation équitable protège les fournisseurs d’IA des réclamations en matière de droits d’auteur. Mais il est essentiel que nous élucidions ces choses. Autrement, l’industrie pourrait bien se retrouver dans une situation où la « fuite des cerveaux » universitaires se poursuit sans relâche et où seules quelques entreprises puissantes ont accès à de vastes réservoirs de formations précieuses.