Les moteurs de recherche autres que Google ne peuvent plus afficher les résultats récents de Reddit

Les discussions récentes sur Reddit n’apparaissent plus dans les résultats des moteurs de recherche autres que Google. Cette disparition est due aux mises à jour de la politique de contenu de Reddit qui interdisent l’exploration de son site sans accepter les règles de Reddit, qui interdisent l’utilisation du contenu de Reddit pour l’entraînement de l’IA sans le consentement explicite de Reddit.

Comme le rapporte 404 Media, l’utilisation de « site:reddit.com » sur des moteurs de recherche autres que Google, notamment Bing, DuckDuckGo et Mojeek, n’a généré que peu ou pas de résultats Reddit au cours de la semaine dernière. Ars Technica a effectué des recherches sur ces moteurs et d’autres et peut confirmer les résultats. Brave, par exemple, génère parfois quelques résultats Reddit (exemples ici et ici), mais pas autant que ce qui apparaît sur Google lorsque des requêtes identiques sont utilisées. Kagi est un moteur de recherche payant qui paie Google pour une partie de son index de recherche et affiche toujours les résultats Reddit récents.

Comme l’a noté 404 Media, le protocole d’exclusion des robots de Reddit (fichier robots.txt) empêche les robots de récupérer les données du site. Le protocole stipule également que « Reddit croit en un Internet ouvert, mais pas en l’utilisation abusive du contenu public ». Reddit a approuvé des scrapers d’Internet Archive et de certaines entités axées sur la recherche.

Reddit a annoncé des changements à son fichier robots.txt le 25 juin. Avant ces changements, le groupe a déclaré avoir constaté « une augmentation du nombre d’entités manifestement commerciales qui utilisent Reddit en prétendant ne pas être liées par nos conditions ou nos politiques. Pire encore, elles se cachent derrière le fichier robots.txt et affirment qu’elles peuvent utiliser le contenu de Reddit pour n’importe quel cas d’utilisation qu’elles souhaitent ».

Le mois dernier, Reddit a déclaré que tout « acteur de bonne foi » pouvait contacter Reddit pour essayer de travailler avec l’entreprise, en utilisant un lien vers un formulaire en ligne. Cependant, Colin Hayhurst, le PDG de Mojeek, m’a dit par e-mail qu’il avait contacté Reddit après avoir été bloqué, mais que Reddit « n’avait pas répondu à de nombreux messages et e-mails ». Il a noté que depuis le rapport de 404 Media, le PDG de Reddit, Steve Huffman, avait pris contact avec Reddit.

L’emprise de Google sur la recherche se resserre

Google étant pratiquement le seul moteur de recherche capable d’afficher les résultats récents de Reddit (du moins pour l’instant), Reddit a involontairement contribué à renforcer l’emprise de Google sur le secteur de la recherche. Ce changement intervient dans un contexte de préoccupations récentes concernant la qualité des résultats de Google, qui a classé les fermes de spam SEO et IA, les publicités et les liens de commerce électronique plus haut que les résultats plus pertinents. L’aperçu de l’IA de Google suscite également des inquiétudes.

Contacté pour un commentaire, le porte-parole de Reddit, Tim Rathschmidt, a déclaré par courrier électronique que Reddit était en pourparlers « avec plusieurs moteurs de recherche ». Il a ajouté :

Nous n’avons pas pu parvenir à des accords avec tous, car certains ne sont pas en mesure ou ne veulent pas faire de promesses exécutoires concernant leur utilisation du contenu Reddit, y compris son utilisation pour l’IA.

Après que Reddit a déclaré la guerre à l’utilisation gratuite de son contenu pour l’entraînement de l’IA (ce qui a également entraîné une augmentation du prix de l’accès aux API qui a entraîné la fermeture de nombreuses applications Reddit tierces), Reddit a signé un accord d’un montant estimé à 60 millions de dollars par an qui permet à Google d’utiliser les données Reddit pour entraîner son IA. On s’attendait à ce que Reddit tente de conclure un accord similaire avec Microsoft, mais il semble que les parties n’aient pas pu parvenir à un accord conforme à la politique de contenu de Reddit, qui comprend également des règles sur la confidentialité des utilisateurs et le contenu supprimé, par exemple.

Un porte-parole de Microsoft m’a dit :

Microsoft respecte la norme robots.txt et nous respectons les instructions fournies par les sites Web qui ne souhaitent pas que le contenu de leurs pages soit utilisé avec nos modèles d’IA génératifs. Bing a arrêté d’explorer Reddit après avoir implémenté son fichier robots.txt mis à jour le 1er juillet, qui interdit toute exploration de son site.

En octobre, le Washington Post, citant une source anonyme, a rapporté que Reddit envisageait de bloquer les robots de recherche Bing s’il ne parvenait pas à conclure un accord avec Microsoft.

Comme l’a souligné 404 Media, le guide de Reddit pour accéder à ses données cite les « annonces de recherche ou de site Web » comme une utilisation commerciale justifiant des frais. On ne sait pas exactement combien d’argent les autres moteurs de recherche devraient dépenser pour être autorisés à récupérer les données de la plateforme. Rathschmidt a déclaré que Reddit était « ouvert à la collaboration avec des partenaires de toute taille ».

« Il est mauvais pour la santé d’Internet que des entreprises à but lucratif récupèrent notre contenu sans contrainte et l’utilisent, entre autres, [training] « Des modèles d’IA », a-t-il déclaré.

Pour l’instant, Google peut continuer à s’appuyer sur Reddit pour rendre les résultats de recherche plus pertinents. Google n’a pas répondu à la demande de commentaires d’Ars.

Dans le même temps, les moteurs de recherche alternatifs pourraient avoir plus de mal à rivaliser.

« Avec nos propres algorithmes de classement, auparavant, les utilisateurs trouvaient souvent des pages différentes sur Reddit de celles qu’ils trouvaient avec Google et d’autres », m’a expliqué Hayhurst de Mojeek.

Le PDG a ajouté que même si le fait d’être bloqué par Reddit n’est pas un problème majeur, il s’inquiète du précédent que cela pourrait créer. « Les moteurs de recherche sont la principale source de trafic pour la plupart des sites Web, et la propagation de ce comportement va encore plus étouffer le trafic. Et les petits sites seront encore plus touchés que les grands sites », a-t-il déclaré.

Advance Publications, propriétaire de Condé Nast, la société mère d’Ars Technica, est le principal actionnaire de Reddit.

Cet article a été mis à jour avec des commentaires supplémentaires de Microsoft.

Source-147