Reddit a un avertissement pour les sociétés d’IA et autres scrapers : respectez nos règles ou soyez bloqué. La société a indiqué qu’elle prévoyait de mettre à jour son protocole d’exclusion de robots (fichier robots.txt), qui lui permet de bloquer le scraping automatisé de sa plateforme.
La société a déclaré qu’elle continuerait également à bloquer et à limiter le débit des robots d’exploration et autres robots qui n’ont pas d’accord préalable avec la société. Les changements, dit-il, ne devraient pas affecter les « acteurs de bonne foi », comme Internet Archive et les chercheurs.
L’avis de Reddit intervient peu de temps après plusieurs rapports selon lesquels Perplexity et d’autres sociétés d’IA utilisent régulièrement le protocole robots.txt des sites Web, qui est utilisé par les éditeurs pour indiquer aux robots d’exploration Web qu’ils ne souhaitent pas que leur contenu soit accessible. Le PDG de Perplexity, dans un récent entretien avec Entreprise rapidea déclaré que le protocole n’est « pas un cadre juridique ».
Dans un communiqué, un porte-parole de Reddit a déclaré à Engadget qu’il ne ciblait pas une entreprise en particulier. « Cette mise à jour n’a pas pour but de cibler une seule entité ; il vise à protéger Reddit tout en gardant Internet ouvert », a déclaré le porte-parole. « Dans les prochaines semaines, nous mettrons à jour nos instructions robots.txt pour qu’elles soient aussi claires que possible : si vous utilisez un agent automatisé pour accéder à Reddit, quel que soit le type d’entreprise que vous êtes, vous devez respecter nos conditions et politiques, et vous devez nous parler. Nous croyons en un Internet ouvert, mais nous ne croyons pas à l’utilisation abusive des contenus publics.
Ce n’est pas la première fois que l’entreprise adopte une ligne dure en matière d’accès aux données. La société a cité l’utilisation de sa plate-forme par les sociétés d’IA lorsqu’elle a commencé à facturer l’année dernière. Depuis lors, elle a conclu des accords de licence avec certaines sociétés d’IA, notamment et . Les accords permettent aux entreprises d’IA de former leurs modèles sur les archives de Reddit et ont constitué une source de revenus importante pour le nouveau Reddit public. La partie « parlez-nous » de cette déclaration est probablement un rappel pas si subtil que l’entreprise n’a plus pour mission de distribuer son contenu gratuitement.