Le blocage des robots IA de Microsoft et d’autres a été « une vraie galère » : PDG de Reddit

Le PDG de Reddit, Steve Huffman, maintient la décision de Reddit d’empêcher les entreprises de scraper le site sans un accord d’IA.

La semaine dernière, 404 Media a remarqué que les moteurs de recherche autres que Google ne citaient plus les publications récentes de Reddit dans leurs résultats. Cela s’explique par le fait que Reddit a mis à jour son protocole d’exclusion des robots (fichier txt) pour empêcher les robots de scrapper le site. Le fichier indique : « Reddit croit en un Internet ouvert, mais pas en l’utilisation abusive de contenu public. » Depuis que la nouvelle a été annoncée, OpenAI a annoncé SearchGPT, qui peut afficher les résultats récents de Reddit.

Ce changement intervient un an après que Reddit ait commencé à s’efforcer de mettre un terme au scraping gratuit, ce que Huffman avait initialement présenté comme une tentative d’empêcher les entreprises d’IA de gagner de l’argent gratuitement grâce au contenu de Reddit. Cette initiative a également conduit Reddit à commencer à facturer l’accès à l’API (les prix élevés ont conduit à la fermeture de nombreuses applications Reddit tierces).

Dans une interview accordée aujourd’hui à The Verge, Huffman a soutenu les changements qui ont permis à Google d’être temporairement le seul moteur de recherche capable d’afficher les discussions récentes de Reddit. Reddit et Google ont signé en février un accord de formation à l’IA estimé à 60 millions de dollars par an. On ne sait pas exactement combien vaut l’accord OpenAI de Reddit. Huffman a déclaré :

Sans ces accords, nous n’avons pas notre mot à dire ni nos connaissances sur la manière dont nos données sont affichées et à quoi elles servent, ce qui nous met désormais dans la position de bloquer les personnes qui n’ont pas voulu accepter la manière dont nous souhaitons que nos données soient utilisées ou non.

Selon The Verge, Huffman a affirmé que Microsoft, Anthropic et Perplexity n’avaient pas négocié. Les trois entreprises n’ont pas commenté l’interview de Huffman.

«[It’s been] « C’est vraiment pénible de bloquer ces entreprises », a déclaré Huffman à The Verge.

Une personne au courant du dossier a déjà déclaré à Ars que Microsoft avait refusé de conclure un accord respectant les règles de confidentialité des données de Reddit. S’adressant à The Verge, Huffman a affirmé que Microsoft avait déjà utilisé les données de Reddit pour la formation de l’IA et les résumés des résultats de Bing, mais n’en avait pas informé Reddit. Il a également affirmé que les données de Reddit avaient « été vendues via l’API Bing à d’autres moteurs de recherche », selon The Verge.

Débat sur l’IA

Un porte-parole de Microsoft m’a dit la semaine dernière que « Microsoft respecte la norme robots.txt et nous respectons les instructions fournies par les sites Web qui ne souhaitent pas que le contenu de leurs pages soit utilisé avec nos modèles d’IA génératifs. » Mais comme l’a souligné The Verge, Jordi Ribas, vice-président de la recherche et de l’IA chez Microsoft, s’est adressé à X le 29 juillet pour souligner comment les changements apportés à Reddit favorisent Google « impactant la concurrence de Bing et des moteurs alimentés par Bing. »

Selon certaines informations, Huffman aurait également fait référence à une interview accordée à CNBC en juin, au cours de laquelle Mustafa Suleyman, PDG de Microsoft AI, a déclaré : « Je pense que, en ce qui concerne le contenu déjà disponible sur le Web ouvert, le contrat social de ce contenu depuis les années 90 est qu’il s’agit d’un usage équitable. N’importe qui peut le copier, le recréer, le reproduire. C’est du freeware, si vous voulez. C’est ce qui a été convenu. » Suleyman a ajouté que son commentaire ne faisait pas référence à certains types de contenu Web, comme les organismes de presse.

« Microsoft, Anthropic et Perplexity ont agi comme si tout le contenu sur Internet était libre d’utilisation. C’est là leur véritable position », a déclaré Huffman.

Reddit n’a pas révélé combien d’argent serait nécessaire pour les accords qui permettraient de récupérer les données de Microsoft, Perplexity, Anthropic ou de plus petites entreprises. Le porte-parole de Reddit, Tim Rathschmidt, a déclaré à Ars la semaine dernière que Reddit avait discuté « avec plusieurs moteurs de recherche » et que Reddit était « ouvert à travailler avec des partenaires de toutes tailles ».

Il est probable que Reddit cible les gros contrats liés à l’intelligence artificielle, qu’il considère comme une part importante de son activité. Colin Hayhurst, PDG du moteur de recherche Mojeek, a déclaré à Ars la semaine dernière que Reddit n’avait pas répondu à ses e-mails concernant le blocage de Mojeek avant la publication du rapport de 404 Media.

Les efforts de Reddit pour trouver de nouvelles sources de revenus alors qu’il tente de devenir rentable pour la première fois ont été semés d’embûches, notamment une protestation massive des utilisateurs en réponse aux changements de règles de l’API de Reddit. L’entreprise cherche à conclure des accords à un moment où les éditeurs, l’industrie de la musique et d’autres acteurs se débattent avec la légalité des robots IA et cherchent à créer un précédent. La dépendance de Reddit à l’égard du contenu gratuit généré par les utilisateurs complique encore davantage le débat.

Advance Publications, propriétaire de Condé Nast, la société mère d’Ars Technica, est le principal actionnaire de Reddit.

Source-147