Si vous avez déjà posté sur Reddit, il y a de fortes chances que vous aidiez à former la prochaine génération de modèles d’IA avec vos propres mots, images et mèmes, car la société vend l’accès à ses 20 ans de contenu pour 60 $. million. Je veux dire, il y a de fortes chances que vous ayez déjà été habitué à former des IA étant donné que Reddit figure déjà en grande partie dans les données de formation pour un tas de différents grands modèles de langage (LLM) et générateurs d’images, mais au moins maintenant quelques uns être payé pour cela.
Les modèles d’IA générative, tels que ChatGPT et Stable Diffusion, doivent être formés sur des bases de données comprenant des centaines de millions d’images, de livres, de clips vidéo, de musique, etc. Parfois, la source est accessible au public et ouverte à tous, et parfois les sociétés d’IA « empruntent » simplement ce qui traîne sur le Web. Mais il y a rarement de l’argent échangé entre les deux organismes. Ce n’est pas le cas avec Reddit, car il semble qu’il ait conclu un accord selon lequel, pour une bonne somme d’argent chaque année, un modèle d’IA peut utiliser le contenu du site à des fins de formation.
C’est ce que révèle un rapport de Bloomberg, qui estime que l’accord vaut 60 millions de dollars par an. Dans le monde de la technologie, où les transactions se chiffrent en milliards de dollars, cela peut sembler peu, mais c’est plutôt inconnu dans la formation en IA. Rien n’indique qui est l’autre partie à l’accord, mais il est peu probable qu’il s’agisse d’une petite entreprise en démarrage dans l’arrière-chambre de quelqu’un.
Reddit héberge près de 20 ans de contenu publié sur ses serveurs, donc quelle que soit la société d’IA, elle a fait une véritable bonne affaire. OpenAI, les développeurs de ChatGPT, aurait conclu des accords de licence avec plusieurs sociétés de médias et éditeurs, ce qui ne semble pas si différent de l’accord de Reddit.
Cependant, ces éditeurs paient généralement pour le travail des créateurs de contenu, ou à tout le moins, emploient directement des personnes pour créer le matériel qu’OpenAI souhaite utiliser. Reddit, en revanche, ne fait rien de tel, bien que le site lui-même soit totalement gratuit. Il n’existe pas de repas gratuitsbien sûr, et Reddit génère des revenus grâce à la publicité et aux fonctionnalités utilisateur payantes.
En supposant que l’accord se poursuive (et je ne vois aucune raison pour laquelle ce ne sera pas le cas), alors je ne doute pas qu’il y aura une autre réaction des utilisateurs, similaire à celle observée lorsque Reddit a modifié ses frais d’API. Cependant, les effets de cette réponse ont disparu avec le temps et le site est pratiquement revenu à ce qu’il était avant que de nombreuses sections ne deviennent sombres.
Même s’il y aura beaucoup de bruit au départ, le résultat sera que Reddit ressemblera et fonctionnera exactement comme il le fait actuellement. Aucun utilisateur ne saura que ses publications sont activement supprimées et utilisées dans la formation des modèles. Donc c’est juste un peu de bruit pour rien, n’est-ce pas ?
Ce n’est peut-être pas le cas si vous avez déjà utilisé Reddit pour montrer vos compétences en écriture, vos œuvres d’art ou votre musique. Vous pensez peut-être que le contenu vous appartient et est protégé par les lois sur le droit d’auteur, mais tout devient très trouble lorsqu’il s’agit de formation à l’IA générative. Vous faites tout le travail acharné, mais quelqu’un d’autre en profite et, plus important encore, ne le reconnaît ni ne vous rémunère d’aucune façon.
Tout cela marquera certainement le début d’un flot d’accords entre les sociétés d’IA et d’autres sites de médias sociaux. Je soupçonne que les plus grandes entreprises récupèrent déjà du contenu pour la formation et en cachent les détails dans les moindres détails de leurs énormes accords avec les utilisateurs finaux. Mais il est peut-être temps d’accorder beaucoup plus d’attention à ce que vous publiez et à l’endroit où vous publiez votre création, surtout si vous espérez en faire une carrière.