Reddit commencera à charger des modèles d’IA en apprenant à partir de ses archives extrêmement humaines

Agrandir / Reddit, un site qui regorge d’humains étant tous les types d’humains possibles, commencera à facturer les grandes entreprises qui souhaitent former leurs IA de grands modèles linguistiques sur ses données.

Getty Images

Si vous êtes une entreprise qui forme une IA à grand modèle de langage (LLM) et que vous souhaitez qu’elle apprenne du subreddit u/420NarutoConspiracy, vous devrez bientôt payer pour cela.

Steve Huffman, fondateur et PDG de l’agrégateur de nouvelles et de discussions sociales Reddit, a récemment déclaré au New York Times qu’il prévoyait de facturer les entreprises accédant à son API dans le but de tirer ses 18 ans de contenu généré principalement par des humains. Les détails sur les nouvelles conditions sont disponibles dans une annonce ultérieure sur Reddit.

L’API serait toujours gratuite pour les développeurs travaillant sur des bots et autres outils Reddit et pour les chercheurs travaillant sur des projets académiques ou non commerciaux. Mais le simple fait de maintenir les conversations de Reddit à des fins de formation à l’IA aura un prix, dont les montants exacts devraient arriver dans les semaines à venir.

« Le corpus de données Reddit est vraiment précieux », a déclaré Huffman au Times. « Mais nous n’avons pas besoin de donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde.

« Crawler Reddit, générer de la valeur et ne rien restituer à nos utilisateurs est quelque chose qui nous pose problème. C’est le bon moment pour nous de resserrer les choses. »

Les commentaires et les conversations de Reddit ont été une riche ressource pour la formation des IA LLM. ChatGPT et Google’s Bard citent les données de Reddit comme l’une de leurs sources. Dans leur analyse d’un seul sous-ensemble (12 millions) de l’ensemble de données de génération d’images de Stable Diffusion (2,3 milliards), Andy Baio et Simon Willison ont noté que « les plates-formes de contenu généré par les utilisateurs étaient une énorme source de données d’image ». Une enquête sur les sources de données communes pour de nombreuses IA publiée aujourd’hui par le Washington Post a noté qu' »une compilation de texte à partir de liens hautement notés par les utilisateurs de Reddit » est incluse dans GPT-3.

Bien qu’il ait l’intention de limiter l’accès aux IA, Reddit a déclaré qu’il prévoyait de donner aux développeurs et aux modérateurs de meilleurs outils pour travailler au sein de leurs communautés. Les applications iOS et Android de Reddit offriront des moyens de visualiser rapidement l’historique d’un utilisateur, de mettre à jour les règles de la communauté et de mieux gérer plusieurs files d’attente de mods.

Le changement de Reddit sur l’accès aux API intervient alors que la société cherche à devenir publique au second semestre 2023, selon The Information. La société a déposé confidentiellement une offre publique initiale en décembre 2021. Elle avait espéré une valorisation de 15 milliards de dollars, selon Reuters, mais a retardé son dépôt jusqu’à ce que les conditions du marché, en particulier autour des entreprises technologiques, s’améliorent.

Reddit appartient en partie à Advance Publications, qui possède également la société mère d’Ars Technica, Condé Nast.

Source-147