Les moteurs de recherche IA qui ne paient pas ne peuvent pas indexer le contenu de Reddit

Lorsque Reddit a annoncé le mois dernier qu’il bloquerait le scraping de données non autorisé sur son site, la première réaction (à juste titre) de tout le monde a été « IA, IA, IA ». Cependant, maintenant que le changement est entré en vigueur, les fabricants de chatbots ne sont peut-être pas les seuls à être exclus. Le forum très utilisé semble également bloquer les principaux moteurs de recherche autres que Brave et Google, ce dernier ayant apparemment signé un accord plus tôt cette année avec Reddit d’une valeur de 60 millions de dollars par an. Cependant, un porte-parole de Reddit a déclaré à Engadget que les résultats de recherche vides sont dus au fait que les rivaux de Google n’acceptent pas les exigences de l’entreprise en matière de formation de l’IA. Il dit être en pourparlers avec plusieurs d’entre eux.

404 Médias Le site a rapporté mercredi (et Engadget l’a confirmé dans nos requêtes) que la recherche des résultats Reddit de la semaine dernière sur le moteur concurrent Bing (en utilisant « site:reddit.com ») renvoie des résultats vides. La publication a rapporté que DuckDuckGo a produit sept liens sans aucune description, ne fournissant que la note « Nous aimerions vous montrer une description ici, mais le site ne nous le permet pas ». Le moteur semble désormais avoir supprimé même ceux-là, car notre test n’a produit qu’une page vide, indiquant « aucun résultat trouvé ».

Lorsque Reddit a annoncé le mois dernier qu’il mettrait à jour son protocole d’exclusion des robots (robots.txt) pour bloquer le scraping automatisé de données, il est désormais évident que cette mesure n’avait pas pour seul objectif de contrecarrer les entreprises d’intelligence artificielle comme Perplexity et son controversé « moteur de réponse ». Actuellement, Google semble être le seul moteur de recherche autorisé à explorer Reddit et à produire des résultats provenant de « la première page d’Internet ».

Un porte-parole de Reddit a déclaré mercredi à Engadget qu’il n’était pas exact de dire que les résultats de recherche manquants étaient le résultat de son accord avec Google. « Nous bloquons tous les robots d’exploration qui ne veulent pas s’engager à ne pas utiliser les données d’exploration pour la formation de l’IA, ce qui est conforme à l’application de notre politique de contenu public et à la mise à jour du fichier robots.txt », a déclaré la société. « Toute personne accédant au contenu de Reddit doit se conformer à nos politiques, y compris celles en place pour protéger les redditors. Nous sommes sélectifs quant aux personnes avec lesquelles nous travaillons et à qui nous faisons confiance pour un accès à grande échelle au contenu de Reddit. »

Une source proche de Reddit a déclaré mercredi à Engadget que l’omission de Bing était due au refus de Microsoft d’accepter les conditions de Reddit concernant l’exploration par l’IA. Au lieu de cela, le fabricant de Bing aurait prétendu que ses contrôles Web standard étaient suffisants. La source affirme que la position de Microsoft est en conflit avec la politique de confidentialité des données de Reddit, ce qui conduit à l’impasse et à des résultats de recherche vides.

Le fichier robots.txt est la norme Web qui indique quelles parties d’un site peuvent être explorées. Bien que de nombreux robots ignorent ses instructions, la procédure standard de Google est de le respecter. Ainsi, sur le plan technique, les entreprises impliquées dans ce lucratif accord semblent avoir déployé des mesures de contournement manuel.

Cette saga pourrait être considérée comme un effet de ruissellement des chatbots IA qui parcourent le Web en direct pour obtenir des résultats. Les tribunaux tardant à déterminer quelle part du Web ouvert est une utilisation équitable pour entraîner les chatbots, des entreprises comme Reddit, dont les résultats financiers dépendent désormais de la protection de leurs données contre ceux qui ne paient pas, construisent des murs aux dépens du Web ouvert. (Bien que, compte tenu du rôle essentiel joué par Microsoft à l’ère de l’IA, en s’associant très tôt à OpenAI, il semble ironique que Bing se retrouve du côté des perdants sur au moins un aspect des retombées.)

Colin Hayhurst, PDG du moteur de recherche « sans suivi » moins connu Mojeek, a déclaré 404 Médias Reddit « tue tout pour la recherche, sauf Google ». De plus, le dirigeant a déclaré que ses tentatives de contacter Reddit ont été ignorées. « Cela ne nous est jamais arrivé auparavant », a-t-il déclaré. « Parce que cela nous arrive, nous sommes bloqués, généralement par ignorance ou stupidité ou autre, et lorsque nous contactons le site, vous pouvez certainement résoudre ce problème, mais nous n’avons jamais eu de réponse de qui que ce soit auparavant. »

Reddit n’a jamais caché son désir d’empêcher les entreprises d’intelligence artificielle d’exploiter son trésor de données à l’ère de l’intelligence artificielle. L’année dernière, le PDG Steve Huffman a risqué de s’aliéner une grande partie de sa base d’utilisateurs en bloquant les requêtes API de tiers, ce qui a conduit à la disparition d’applications très appréciées comme Apollo de Christian Selig. Malgré les protestations généralisées des modérateurs et des participants du forum, l’entreprise n’a perdu qu’un nombre négligeable d’utilisateurs pendant un certain temps.

Le pari s’est avéré payant et Reddit s’est rétabli. Le site est devenu public en mars.

Mise à jour, 24 juillet 2024, 17 h 00 HE:Cette histoire a été mise à jour pour ajouter des déclarations de Reddit et un contexte supplémentaire provenant de sources familières avec la réflexion de l’entreprise.

Source-145