Cloudflare prend position contre les scrapers de sites Web IA

Cloudflare a publié un nouvel outil gratuit qui empêche les robots des entreprises d’IA de récupérer le contenu des sites Web de ses clients pour former de grands modèles linguistiques. Le fournisseur de services cloud met cet outil à la disposition de l’ensemble de sa clientèle, y compris ceux qui bénéficient d’un forfait gratuit. « Cette fonctionnalité sera automatiquement mise à jour au fil du temps à mesure que nous verrons de nouvelles empreintes de robots incriminés que nous identifions comme parcourant largement le Web pour former des modèles », a déclaré la société.

En annonçant cette mise à jour, l’équipe de Cloudflare a également partagé certaines données sur la façon dont ses clients réagissent à l’essor des robots qui récupèrent du contenu pour former des modèles d’IA génératifs. Selon les données internes de l’entreprise, 85,2 % des clients ont choisi de bloquer l’accès à leurs sites même aux robots d’IA qui s’identifient correctement.

Cloudflare a également identifié les robots les plus actifs de l’année écoulée. Le robot Bytespider, propriété de Bytedance, a tenté d’accéder à 40 % des sites Web sous la responsabilité de Cloudflare et en a essayé 35 %. Ils représentaient la moitié des quatre premiers robots d’exploration IA en termes de nombre de requêtes sur le réseau de Cloudflare, avec Amazonbot et ClaudeBot.

Il s’avère très difficile de bloquer complètement et systématiquement l’accès au contenu par les robots d’IA. La course aux armements pour créer des modèles plus rapidement a conduit à des cas où des entreprises contournent ou enfreignent carrément les règles existantes concernant le blocage des scrapers. de scraping de sites Web sans les autorisations requises. Mais avoir une entreprise back-end de l’ampleur de Cloudflare qui s’efforce sérieusement de mettre un terme à ce comportement pourrait conduire à certains résultats.

« Nous craignons que certaines entreprises d’IA qui cherchent à contourner les règles pour accéder au contenu s’adaptent constamment pour échapper à la détection des robots », a déclaré la société. « Nous continuerons de surveiller et d’ajouter davantage de blocs de robots à notre règle AI Scrapers and Crawlers et de faire évoluer nos modèles d’apprentissage automatique pour aider à faire d’Internet un endroit où les créateurs de contenu peuvent prospérer et garder un contrôle total sur les modèles sur lesquels leur contenu est utilisé pour s’entraîner ou exécuter des inférences. »

Source-145