L’article aborde les préoccupations liées à l’IA générative et aux contenus médiocres en ligne. Un développeur anonyme, Aaron B, a créé Nepenthes, un piège numérique pour bloquer les bots d’exploration web dans un cycle répétitif. Bien que cet outil puisse ralentir les crawlers, il ne résout pas entièrement le problème des scrapers IA. Aaron B exprime également son indignation face à la transformation d’Internet en une plateforme d’extraction de valeur par des oligarques.
La Réalité de l’IA Générative
Je commence à ressentir une certaine fatigue face à l’avenir de l’apprentissage profond, mes amis. Bien que l’intelligence artificielle générative et les technologies d’apprentissage profond aient des applications bénéfiques, comme dans la recherche sur les protéines et l’avancement des sciences médicales, la prolifération de contenus médiocres sur le web a engendré un climat de méfiance. Les collecteurs de contenu se livrent à une chasse incessante, aspirant tout ce qu’ils peuvent trouver, tandis qu’une multitude de technophiles clame que leur logiciel est capable de penser, de ressentir et de prendre des décisions, malgré les preuves contraires qui montrent que ce n’est pas le cas.
L’Invention d’Aaron B
Dans ce contexte, un développeur anonyme, utilisant le pseudonyme d’Aaron B, partage également ce malaise et a décidé d’agir. Il a conçu un piège numérique nommé Nepenthes, qui vise à garder les bots d’exploration web piégés dans une boucle sans fin, les obligeant à scanner sans relâche les mêmes pages jusqu’à ce qu’un utilisateur humain vienne intervenir.
Nepenthes, inspiré par la plante carnivore, exploite une faiblesse des crawlers : leur apparente incapacité à raisonner. Comme l’explique Aaron B, « Ce n’est pas tant un piège à mouches qu’un labyrinthe infini où le minotaure est le crawler lui-même, incapable de s’échapper. Le crawler web typique fonctionne de manière illogique ; il télécharge une URL, puis suit les liens qu’il trouve, téléchargeant ainsi d’autres URL. Nepenthes génère des liens aléatoires qui renvoient toujours à lui-même, piégeant le crawler dans un cycle répétitif. »
Le site de Nepenthes fournit des détails sur son fonctionnement et propose des manières d’agir en défense. Il permet de « saturer des URL valides au sein du domaine de votre site, minimisant ainsi la probabilité que le crawler accède à un contenu réel. » En outre, les utilisateurs peuvent choisir de laisser les bots télécharger une quantité excessive de données, les empêchant d’accéder à d’autres ressources.
Le programme est accompagné d’un avertissement clair indiquant qu’il s’agit d’un « logiciel malveillant destiné à provoquer des activités nuisibles » et que son utilisation peut entraîner une charge CPU élevée. Il est donc crucial de s’en servir avec prudence.
Cependant, il est important de noter que Nepenthes ne résout pas complètement le problème des scrapers IA. Ces modèles consomment encore une grande quantité de ressources, et Nepenthes ne fait rien pour les arrêter. « Ils continuent de consommer des ressources, tournant en rond sans produire de résultats significatifs, à moins qu’ils ne réalisent qu’ils sont piégés, » ajoute Aaron B.
Il existe ainsi un cycle de rétroaction préoccupant : les fermes de bots de scraping, que nous connaissons tous trop bien, pourraient être incitées à développer encore plus de scrapers pour contrer cette menace, augmentant ainsi les coûts énergétiques et aggravant la situation. C’est une solution temporaire qui pourrait facilement aboutir à des conséquences désastreuses, tel un « très bien, nous allons tous brûler ». Aaron B résume cette situation en déclarant : « C’est aussi une sorte d’œuvre d’art, une expression de ma colère face à l’évolution d’Internet en une plateforme d’extraction de valeur, où les décisions sont prises par des oligarques, alors même que nous n’avons pas d’autres moyens que de provoquer un changement réel. »
Quant à la possibilité que les bots contournent ces pièges, Aaron B reste convaincu qu’il parvient à leur faire perdre au moins un peu de temps : « J’ai des millions de lignes de journaux d’accès qui prouvent même que les puissants bots de Google ne s’en sortent pas. »