Quiconque navigue sur le Web depuis un certain temps est probablement habitué à cliquer sur une grille CAPTCHA d’images de rue, identifiant des objets du quotidien pour prouver qu’il s’agit d’un être humain et non d’un robot automatisé. Aujourd’hui, cependant, de nouvelles recherches affirment que les robots exécutés localement utilisant des modèles de reconnaissance d’images spécialement formés peuvent égaler les performances humaines dans ce style de CAPTCHA, atteignant un taux de réussite de 100 pour cent bien qu’ils ne soient décidément pas humains.
La nouvelle recherche d’Andreas Plesner, doctorant à l’ETH Zurich, et de ses collègues, disponible sous forme d’article pré-imprimé, se concentre sur le ReCAPTCHA v2 de Google, qui met les utilisateurs au défi d’identifier quelles images de rue dans une grille contiennent des éléments tels que des vélos, des passages pour piétons, des montagnes, des escaliers ou feux de signalisation. Google a commencé à supprimer progressivement ce système il y a des années au profit d’un reCAPTCHA v3 « invisible » qui analyse les interactions des utilisateurs plutôt que de proposer un défi explicite.
Malgré cela, l’ancienne reCAPTCHA v2 est toujours utilisée par des millions de sites Web. Et même les sites qui utilisent le reCAPTCHA v3 mis à jour utiliseront parfois reCAPTCHA v2 comme solution de secours lorsque le système mis à jour donne à un utilisateur une faible note de confiance « humaine ».
Dire YOLO aux CAPTCHA
Pour créer un robot capable de battre reCAPTCHA v2, les chercheurs ont utilisé une version affinée du modèle de reconnaissance d’objet open source YOLO (« You Only Look Once »), dont les lecteurs de longue date se souviennent peut-être qu’il a également été utilisé dans les jeux vidéo. des robots tricheurs. Les chercheurs affirment que le modèle YOLO est « bien connu pour sa capacité à détecter des objets en temps réel » et « peut être utilisé sur des appareils dotés d’une puissance de calcul limitée, permettant des attaques à grande échelle par des utilisateurs malveillants ».
Après avoir entraîné le modèle sur 14 000 images de trafic étiquetées, les chercheurs disposaient d’un système capable d’identifier la probabilité qu’une image de grille CAPTCHA fournie appartienne à l’une des 13 catégories candidates de reCAPTCHA v2. Les chercheurs ont également utilisé un modèle YOLO distinct et pré-entraîné pour ce qu’ils ont surnommé les défis de « type 2 », dans lesquels un CAPTCHA demande aux utilisateurs d’identifier quelles parties d’une image segmentée unique contiennent un certain type d’objet (ce modèle de segmentation n’a fonctionné que sur neuf de 13 catégories d’objets et demandait simplement une nouvelle image lorsqu’on lui présentait les quatre autres catégories).
Au-delà du modèle de reconnaissance d’images, les chercheurs ont également dû prendre d’autres mesures pour tromper le système reCAPTCHA. Un VPN a été utilisé pour éviter la détection de tentatives répétées à partir de la même adresse IP, par exemple, tandis qu’un modèle spécial de mouvement de la souris a été créé pour se rapprocher de l’activité humaine. De fausses informations de navigateur et de cookies provenant de sessions de navigation Web réelles ont également été utilisées pour donner à l’agent automatisé une apparence plus humaine.
Selon le type d’objet identifié, le modèle YOLO a pu identifier avec précision des images CAPTCHA individuelles entre 69 % du temps (pour les motos) et 100 % du temps (pour les bouches d’incendie). Cette performance, combinée aux autres précautions, était suffisamment forte pour passer à travers le filet CAPTCHA à chaque fois, parfois après plusieurs défis individuels présentés par le système. En fait, le robot a été capable de résoudre le CAPTCHA moyen avec un peu moins de défis qu’un humain dans des essais similaires (bien que l’amélioration par rapport aux humains ne soit pas statistiquement significative).
La bataille continue
Bien que des études universitaires antérieures aient tenté d’utiliser des modèles de reconnaissance d’images pour résoudre les reCAPTCHA, elles n’ont réussi que dans 68 à 71 % des cas. L’augmentation du taux de réussite à 100 pour cent « montre que nous sommes désormais officiellement dans l’ère au-delà des captchas », selon les auteurs du nouvel article.
Mais ce n’est pas un problème entièrement nouveau dans le monde des CAPTCHA. Dès 2008, des chercheurs montraient comment des robots pouvaient être entraînés à contourner les CAPTCHA audio destinés aux utilisateurs malvoyants. Et en 2017, les réseaux de neurones étaient utilisés pour vaincre les CAPTCHA textuels qui demandaient aux utilisateurs de saisir des lettres dans des polices tronquées.
Maintenant que les IA exécutées localement peuvent également facilement améliorer les CAPTCHA basés sur des images, la bataille de l’identification humaine continuera de s’orienter vers des méthodes plus subtiles de prise d’empreintes digitales des appareils. « Nous nous efforçons grandement d’aider nos clients à protéger leurs utilisateurs sans montrer de problèmes visuels, c’est pourquoi nous avons lancé reCAPTCHA v3 en 2018 », a déclaré un porte-parole de Google Cloud au New Scientist. « Aujourd’hui, la majorité des protections de reCAPTCHA sur 7 [million] les sites du monde entier sont désormais complètement invisibles. Nous améliorons continuellement reCAPTCHA. »
Pourtant, à mesure que les systèmes d’intelligence artificielle s’améliorent pour imiter de plus en plus de tâches qui étaient auparavant considérées comme exclusivement humaines, il pourrait devenir de plus en plus difficile de garantir que l’utilisateur à l’autre bout de ce navigateur Web est bien une personne.
« Dans un certain sens, un bon captcha marque la frontière exacte entre la machine la plus intelligente et l’humain le moins intelligent », écrivent les auteurs de l’article. « À mesure que les modèles d’apprentissage automatique se rapprochent des capacités humaines, il est devenu plus difficile de trouver de bons captchas. »