Cloudflare a annoncé lundi de nouveaux outils qui, selon elle, contribueront à mettre fin à l’ère du scraping IA sans fin en donnant à tous les sites de son réseau le pouvoir de bloquer les robots en un seul clic.
Cela permettra de mettre un terme à la prolifération des robots de scraping sans restriction, mais, ce qui est peut-être encore plus intéressant pour les créateurs de contenu du monde entier, Cloudflare affirme que cela permettra également d’identifier plus facilement le contenu le plus analysé par les robots, afin que les sites puissent éventuellement bloquer l’accès et facturer les robots pour extraire leur contenu le plus précieux. Pour ouvrir la voie à cet avenir, Cloudflare crée également une place de marché sur laquelle tous les sites pourront négocier des accords de contenu basés sur des audits d’IA plus précis de leurs sites.
Ces outils, selon le blog de Cloudflare, offrent aux créateurs de contenu « pour la première fois » des moyens « de comprendre rapidement et facilement comment les fournisseurs de modèles d’IA utilisent leur contenu, puis de contrôler si et comment les modèles peuvent y accéder ».
Cela est nécessaire pour les créateurs de contenu car l’essor de l’IA générative a rendu plus difficile la valorisation de leur contenu, a suggéré Cloudflare dans un blog plus long expliquant les outils.
Auparavant, les sites pouvaient faire la distinction entre l’approbation de l’accès aux robots utiles qui génèrent du trafic, comme les robots d’exploration des moteurs de recherche, et le refus de l’accès aux robots malveillants qui tentent de supprimer des sites ou de récupérer des données sensibles ou concurrentielles.
Mais désormais, « les modèles de langage de grande taille (LLM) et d’autres outils génératifs ont créé une troisième catégorie plus obscure » de bots, a déclaré Cloudflare, qui ne correspond parfaitement à aucune des deux catégories. Ils ne « génèrent pas nécessairement de trafic » comme un bon bot, mais ils n’essaient pas non plus de voler des données sensibles comme un mauvais bot, de sorte que de nombreux opérateurs de sites n’ont pas de moyen clair de penser à « l’échange de valeur » que représente le scraping par l’IA, a déclaré Cloudflare.
C’est un problème car activer tout le scraping pourrait nuire aux créateurs de contenu à long terme, prédit Cloudflare.
« De nombreux sites ont permis à ces robots d’exploration IA d’analyser leur contenu, car ces robots, pour la plupart, ressemblaient à de « bons » robots, uniquement pour que le résultat signifie moins de trafic vers leur site car leur contenu est reconditionné dans des réponses écrites par l’IA », a déclaré Cloudflare.
Tout ce scraping IA sans restriction « représente un risque pour un Internet ouvert », a averti Cloudflare, proposant que ses outils puissent établir une nouvelle norme industrielle sur la façon dont le contenu est scrapé en ligne.
Comment bloquer les bots en un clic
De plus en plus, les créateurs qui luttent pour contrôler ce qui arrive à leur contenu sont poussés soit à poursuivre les sociétés d’IA pour bloquer le scraping indésirable, comme l’a fait le New York Times, soit à placer le contenu derrière des murs payants, réduisant ainsi l’accès du public à l’information.
Alors que certains grands éditeurs ont conclu des accords de licence avec des sociétés d’IA, Cloudflare espère que de nouveaux outils contribueront à uniformiser les règles du jeu pour tous. De cette façon, « il peut y avoir un échange transparent entre les sites Web qui souhaitent un plus grand contrôle sur leur contenu et les fournisseurs de modèles d’IA qui ont besoin de nouvelles sources de données, afin que tout le monde en profite », a déclaré Cloudflare.
Aujourd’hui, les opérateurs de sites Cloudflare peuvent arrêter de bloquer manuellement chaque robot IA un par un et choisir à la place de « bloquer tous les robots IA en un seul clic », a déclaré Cloudflare.
Pour ce faire, ils peuvent accéder à la section Bots sous l’onglet Sécurité du tableau de bord de Cloudflare, puis cliquer sur un lien bleu dans le coin supérieur droit « pour configurer la manière dont le proxy de Cloudflare gère le trafic des bots », a déclaré Cloudflare. Sur cet écran, les opérateurs peuvent facilement « basculer le bouton de la carte « Bloquer les scrapers et les robots d’exploration de l’IA » sur la position « Activé », bloquant tout et donnant aux créateurs de contenu le temps de définir une stratégie pour l’accès qu’ils souhaitent réactiver, le cas échéant.
Au-delà du simple blocage des robots, les opérateurs peuvent également effectuer des audits d’IA, en analysant rapidement quelles sections de leurs sites sont les plus analysées par quels robots. À partir de là, les opérateurs peuvent décider quel scraping est autorisé et utiliser des contrôles sophistiqués pour décider quels robots peuvent scraper quelles parties de leurs sites.
« Certaines équipes décideront d’autoriser les robots associés aux moteurs de recherche IA à analyser leurs propriétés Internet, car ces outils peuvent toujours générer du trafic vers le site », explique le blog de Cloudflare. « D’autres organisations peuvent signer des accords avec un fournisseur de modèles spécifique et elles souhaitent autoriser n’importe quel type de robot de ce fournisseur à accéder à leur contenu. »
Pour les éditeurs qui jouent déjà au jeu du chat et de la souris avec les robots, un avantage clé serait que les outils de Cloudflare leur permettent d’écrire des règles pour restreindre certains robots qui récupèrent des sites à des fins à la fois « bonnes » et « mauvaises » afin de conserver les bonnes et de jeter les mauvaises.
Le bot le plus frustrant pour les éditeurs aujourd’hui est peut-être le Googlebot, qui extrait les sites pour alimenter les résultats de recherche et pour entraîner l’IA à générer des aperçus de l’IA de recherche Google qui pourraient avoir un impact négatif sur le trafic vers les sites sources en résumant le contenu. Les éditeurs n’ont actuellement aucun moyen de se retirer des modèles de formation alimentant les aperçus de l’IA de Google sans perdre de visibilité dans les résultats de recherche, et les outils de Cloudflare ne pourront pas sortir les éditeurs de cette position inconfortable, a confirmé Matthew Prince, PDG de Cloudflare, à Ars.
Pour les opérateurs de sites tentés de désactiver tout scraping IA, empêcher Googlebot de scraper et de provoquer par inadvertance des baisses de trafic peut être une raison convaincante de ne pas utiliser la solution en un clic de Cloudflare.
Cependant, Prince s’attend à ce que « les pratiques de Google à long terme ne soient pas tenables » et que « Cloudflare contribuera à amener Google et d’autres personnes comme Google » à donner aux créateurs « un contrôle beaucoup plus précis sur » la façon dont les robots comme Googlebot parcourent le Web pour former l’IA.
Prince a déclaré à Ars que Google résout actuellement sa question « philosophique » interne de savoir si le scraping du Googlebot est destiné à la recherche ou à l’IA, mais qu’une solution technique pour empêcher un robot de réaliser certains types de scraping devrait bientôt émerger. Et en attendant, « il peut également y avoir une solution juridique » qui « peut s’appuyer sur le droit des contrats » basé sur l’amélioration des conditions de service des sites.
Bien entendu, tous les sites ne peuvent pas se permettre d’intenter une action en justice pour contester le scraping par l’IA, mais pour aider les créateurs à mieux se défendre, Cloudflare a rédigé des « conditions d’utilisation types que chaque créateur de contenu peut ajouter à ses sites pour protéger légalement ses droits à mesure que les sites acquièrent davantage de contrôle sur le scraping par l’IA ». Grâce à ces conditions, les sites pourraient peut-être plus facilement contester tout scraping restreint découvert grâce aux outils d’analyse de Cloudflare.
« D’une manière ou d’une autre, Google va être obligé d’être plus précis dans ce domaine », prédit Prince.