OpenAI utilisera les publications Reddit pour former ChatGPT dans le cadre d’un nouvel accord

Les éléments publiés sur Reddit seront intégrés à ChatGPT, ont annoncé Reddit et OpenAI jeudi. Le nouveau partenariat accorde à OpenAI l’accès à l’API de données de Reddit, donnant à la société d’IA générative un accès en temps réel aux publications de Reddit.

Le contenu de Reddit sera intégré à ChatGPT « et aux nouveaux produits », indique le blog de Reddit. La société de médias sociaux affirme que le partenariat « permettra aux outils d’IA d’OpenAI de mieux comprendre et présenter le contenu de Reddit, en particulier sur des sujets récents ». OpenAI commencera également à faire de la publicité sur Reddit.

L’accord est similaire à celui que Reddit a conclu avec Google en février, qui permet au géant de la technologie de créer « de nouvelles façons d’afficher le contenu Reddit » et de fournir « des moyens plus efficaces de former des modèles », avait déclaré Reddit à l’époque. Ni Reddit ni OpenAI n’ont divulgué les conditions financières de leur partenariat, mais le partenariat de Reddit avec Google valait 60 millions de dollars.

Dans le cadre du partenariat OpenAI, Reddit a également accès aux grands modèles de langage (LLM) OpenAI pour créer des fonctionnalités pour Reddit, y compris ses modérateurs bénévoles.

La campagne de licences de données de Reddit

La nouvelle intervient environ un an après que Reddit a lancé une guerre des API en commençant à facturer l’accès à son API de données. Cela a entraîné la fermeture de nombreuses applications Reddit tierces bien-aimées et une protestation massive des utilisateurs. Reddit, qui allait bientôt devenir une entreprise publique et n’avait pas encore réalisé de bénéfices, a déclaré que l’une des raisons de ce changement soudain était d’empêcher les entreprises d’IA d’utiliser le contenu de Reddit pour former gratuitement leurs LLM.

Plus tôt ce mois-ci, Reddit a publié une politique relative au contenu public déclarant : « Malheureusement, nous voyons de plus en plus d’entités commerciales utiliser un accès non autorisé ou abuser de l’accès autorisé pour collecter des données publiques en masse, y compris le contenu public de Reddit. Pire encore, ces entités perçoivent qu’elles n’ont aucune limitation. sur leur utilisation de ces données, et ils le font sans égard aux droits des utilisateurs ou à la vie privée, ignorant les demandes raisonnables de droit, de sécurité et de suppression des utilisateurs.

Dans son article de blog publié jeudi, Reddit a déclaré que des accords comme celui d’OpenAI faisaient partie d’un Internet « ouvert ». Il a ajouté que « l’ouverture signifie en partie que le contenu de Reddit doit être accessible à ceux qui favorisent l’apprentissage humain et recherchent des moyens de créer une communauté, une appartenance et une autonomisation en ligne ».

Reddit a exprimé son intérêt à conclure des accords de licence de données en tant qu’élément essentiel de son activité. La création de partenariats en matière d’IA suscite un débat sur l’utilisation de contenu généré par les utilisateurs pour alimenter des modèles d’IA sans que les utilisateurs ne soient rémunérés et que certains d’entre eux ne considèrent potentiellement pas que leurs publications sur les réseaux sociaux seraient utilisées de cette manière. OpenAI et Stack Overflow ont été confrontés à des difficultés plus tôt ce mois-ci lors de l’intégration du contenu Stack Overflow avec ChatGPT. Certains membres de la communauté d’utilisateurs de Stack Overflow ont réagi en sabotant leurs propres publications.

OpenAI est également mis au défi de travailler avec des données Reddit qui, comme une grande partie d’Internet, peuvent être remplies d’inexactitudes et de contenus inappropriés. Certains des plus grands opposants aux changements de règles de l’API de Reddit étaient des mods bénévoles. Certains ont quitté la plate-forme depuis, et suite aux changements de règles, Ars Technica s’est entretenu avec des Redditors de longue date préoccupés par la qualité du contenu Reddit à l’avenir.

Quoi qu’il en soit, les sociétés d’IA générative souhaitent exploiter l’accès de Reddit aux conversations en temps réel d’une variété de personnes discutant d’une gamme presque infinie de sujets. Et Reddit semble tout aussi désireux d’obtenir une licence sur les données des publications de ses utilisateurs.

Advance Publications, qui possède la société mère d’Ars Technica, Condé Nast, est le principal actionnaire de Reddit.

Source-147