La semaine dernière, des informations ont été divulguées selon lesquelles Google avait accepté d’accorder sous licence le corpus massif de milliards de publications et de commentaires de Reddit pour l’aider à former ses grands modèles linguistiques. Aujourd’hui, dans un récent dossier déposé auprès de la Securities and Exchange Commission, le populaire forum en ligne a révélé qu’il rapporterait 203 millions de dollars grâce à ce contrat et à d’autres contrats de licence de données d’IA non spécifiés au cours des trois prochaines années.
Le formulaire S-1 de Reddit, publié par la SEC jeudi soir avant l’introduction en bourse prévue du site, indique que la société s’attend à ce que 66,4 millions de dollars de cette valeur dérivée des données provenant des sociétés LLM soient générés au cours de l’année civile 2024. Bloomberg avait précédemment annoncé que l’accord avec Google valait environ 60 millions de dollars par an, ce qui suggère que l’accord de trois ans représente jusqu’à présent la grande majorité de ses revenus de licences d’IA.
Google et d’autres sociétés d’IA qui autorisent les données de Reddit recevront « un accès continu à [Reddit’s] API de données ainsi que des transferts trimestriels de données Reddit pendant la durée de l’accord », selon le dossier. Cet accès constant et en temps réel est particulièrement précieux, écrit le site dans le dossier, car « les données Reddit augmentent et se régénèrent constamment au fur et à mesure les utilisateurs viennent interagir avec leurs communautés et entre eux.
« Pourquoi payer pour la vache… ? »
Alors que Reddit considère l’octroi de licences de données aux entreprises d’IA comme un élément important de son avenir financier, son dossier indique également que l’utilisation gratuite de ses données a déjà été « un élément fondamental de la formation de nombreux grands modèles de langage ». Le dossier semble presque amer dans la mesure où « certaines entreprises ont construit de très grands modèles de langage commercial en utilisant les données Reddit sans conclure d’accord de licence avec nous ».
Cette reconnaissance met en évidence le paysage juridique encore flou concernant la tendance des sociétés d’IA à exploiter de vastes pans du Web public à des fins de formation, une pratique que ces entreprises défendent comme étant un usage loyal. Et Reddit semble bien conscient que les modèles d’IA peuvent continuer à aspirer ses publications et commentaires gratuitement, même s’il essaie de vendre ces données à d’autres.
« Certaines entreprises peuvent refuser d’accorder une licence aux données Reddit et utiliser ces données sans licence étant donné leur nature ouverte, même si elles violent les conditions juridiques régissant nos services », écrit la société. « Bien que nous prévoyions d’appliquer vigoureusement des mesures contre de telles entités, de telles activités d’application pourraient prendre des années à être résolues, entraîner des dépenses substantielles et détourner l’attention de la direction et d’autres ressources, et nous pourrions finalement ne pas réussir. »
Pourtant, la simple existence d’accords de licence de données d’IA comme celui de Reddit peut influencer la manière dont se dérouleront les batailles juridiques concernant ce type de grattage de données. Comme Timothy Lee et James Grimmelmann d’Ars l’ont noté dans une analyse juridique récente, l’établissement d’un marché de licences bien établi peut avoir un impact énorme sur la question de savoir si les tribunaux considèrent une nouvelle utilisation des données numérisées comme une « utilisation équitable » au sens de la loi sur le droit d’auteur.
« Le plus [AI data licensing] « Des accords comme celui-ci sont signés dans les mois à venir, plus il sera facile pour les plaignants de faire valoir que le volet « effet sur le marché » de l’analyse de l’utilisation équitable devrait prendre en compte ce marché de licence », ont écrit Lee et Grimmelmann.
Et tandis que Reddit considère les LLM comme une nouvelle opportunité de revenus, le site considère également leur popularité comme une menace potentielle. Le dossier S-1 note que « certains utilisateurs se tournent également vers des LLM tels que ChatGPT, Gemini et Anthropic » pour rechercher des informations, les plaçant dans la même catégorie de concurrence Reddit que « Google, Amazon, YouTube, Wikipedia, X et d’autres sites d’information.
Après avoir déposé son introduction en bourse fin 2021, des rapports suggèrent que Reddit vise à entrer officiellement en bourse le mois prochain. La société offrira aux utilisateurs et modérateurs ayant suffisamment de karma et/ou d’activité sur le site la possibilité de participer à cette introduction en bourse via un programme de partage dirigé.
Advance Publications, qui possède la société mère d’Ars Technica, Condé Nast, est le principal actionnaire de Reddit.