Le phishing est, malheureusement, rentable, difficile à détecter et relativement facile à engager. Avec les transformations numériques accélérées à travers le monde, le phishing est appelé à connaître une croissance explosive continue.
Selon Phishlabs, le nombre de tentatives de phishing au cours du premier trimestre 2021 a augmenté de près de 50 %. Il n’y a aucune raison de croire qu’il arrêtera de grimper non plus.
Cela signifie des niveaux accrus de dommages et de risques numériques. Pour contrer une telle hausse, de nouvelles approches de détection du phishing doivent être testées ou les actuelles améliorées. Une façon d’améliorer les approches existantes consiste à utiliser le web scraping.
Hameçonner
Les hameçonneurs auraient du mal à reproduire complètement le site Web d’origine. Placer toutes les URL à l’identique, répliquer des images, cuisiner l’âge du domaine, etc. demanderait plus d’efforts que la plupart des gens ne seraient prêts à y consacrer.
De plus, une usurpation parfaite aurait probablement un taux de réussite inférieur en raison de la possibilité pour la cible de se perdre (en cliquant sur une URL non liée). Enfin, comme pour toute autre arnaque, duper tout le monde n’est pas nécessaire, donc la réplique parfaite serait un effort inutile dans la plupart des cas.
Cependant, ceux qui font du phishing ne sont pas stupides. Ou du moins ceux qui y réussissent ne le sont pas. Ils font toujours de leur mieux pour créer une réplique crédible avec le moins d’efforts requis. Il peut ne pas être efficace contre ceux qui sont férus de technologie, mais même une réplique parfaite peut ne pas être efficace contre les méfiants. En bref, le phishing repose sur le fait d’être « juste assez bon ».
Par conséquent, en raison de la nature de l’activité, il y a toujours un ou deux trous flagrants à découvrir. Deux bonnes façons de prendre une longueur d’avance sont soit de rechercher des similitudes entre les sites Web fréquemment piratés (par exemple, fintech, SaaS, etc.) et les sites Web de phishing suspectés, soit de collecter des modèles d’attaques connues et de progresser à partir de là.
Malheureusement, avec le volume de sites Web de phishing apparaissant quotidiennement et l’intention de cibler les personnes moins averties en matière de technologie, résoudre le problème n’est peut-être pas aussi simple qu’il y paraît à première vue. Bien sûr, comme c’est souvent le cas, la réponse est l’automatisation.
Recherche d’hameçonnage
Il y a eu plus de méthodes développées au fil des ans. Un article de synthèse rédigé en 2018 par ScienceDirect répertorie la détection basée sur les URL, la reconnaissance de la mise en page et la détection basée sur le contenu. Les premiers sont souvent à la traîne des hameçonneurs, car les bases de données sont mises à jour plus lentement que les nouveaux sites Web n’apparaissent. La reconnaissance de la mise en page est basée sur l’heuristique humaine et est donc plus sujette à l’échec. La détection basée sur le contenu est lourde de calculs.
Nous accorderons un peu plus d’attention à la reconnaissance de la mise en page et à la détection basée sur le contenu, car ce sont des processus compliqués qui bénéficient grandement du scraping Web. À l’époque, un groupe de chercheurs avait créé un cadre pour détecter les sites Web de phishing appelé CANTINA. Il s’agissait d’une approche basée sur le contenu qui vérifiait des données telles que les ratios TF-IDF, l’âge du domaine, les URL suspectes, l’utilisation inappropriée des signes de ponctuation, etc. Cependant, l’étude avait été publiée en 2007 lorsque les possibilités d’automatisation étaient limitées.
Le grattage Web peut améliorer considérablement le cadre. Au lieu d’essayer manuellement de trouver les valeurs aberrantes, les applications automatisées peuvent parcourir les sites Web et télécharger le contenu pertinent qu’ils contiennent. Des détails importants tels que ceux décrits ci-dessus peuvent être extraits du contenu, analysés et évalués.
Construire un filet
CANTINA, développé par les chercheurs, avait un inconvénient – il n’était utilisé que pour prouver une hypothèse. À ces fins, une base de données de sites Web de phishing et légitimes avait été compilée. Le statut des deux était connu a priori.
De telles méthodes conviennent pour prouver une hypothèse. Ils ne sont pas aussi bons dans la pratique où nous ne connaissons pas l’état des sites Web à l’avance. Les applications pratiques de projets similaires à CANTINA nécessiteraient une quantité importante d’efforts manuels. À un moment donné, ces applications ne seraient plus considérées comme « pratiques ».
Théoriquement, cependant, la reconnaissance basée sur le contenu semble être un concurrent sérieux. Les sites Web d’hameçonnage doivent reproduire le contenu d’une manière presque identique à l’original. Toutes les incongruités telles que des images mal placées, des fautes d’orthographe, des morceaux de texte manquants peuvent déclencher des soupçons. Ils ne peuvent jamais trop s’éloigner de l’original, ce qui signifie que des métriques telles que TF-IDF devraient être similaires par nécessité.
L’inconvénient de la reconnaissance basée sur le contenu a été le côté lent et coûteux du travail manuel. Cependant, le scraping Web déplace la plupart des efforts manuels vers une automatisation complète. En d’autres termes, cela nous permet d’utiliser les méthodes de détection existantes à une échelle nettement plus grande.
Tout d’abord, au lieu de collecter manuellement des URL ou de les extraire d’une base de données déjà existante, le scraping peut créer rapidement la sienne. Ils peuvent être collectés par le biais de tout contenu comportant des hyperliens ou des liens vers ces supposés sites Web de phishing sous quelque forme que ce soit.
Deuxièmement, un scraper peut parcourir une collection d’URL plus rapidement que n’importe quel humain ne le pourrait jamais. La vue d’ensemble manuelle présente des avantages, tels que la possibilité de voir la structure et le contenu d’un site Web tel qu’il est au lieu de récupérer du code HTML brut.
Les représentations visuelles, cependant, ont peu d’utilité si nous utilisons des méthodes de détection mathématiques telles que la profondeur de lien et TF-IDF. Ils peuvent même servir de distraction, nous éloignant des détails importants en raison de l’heuristique.
L’analyse devient également une piste de détection. Les analyseurs s’effondrent fréquemment si des modifications de mise en page ou de conception se produisent sur le site Web. S’il y a des erreurs d’analyse inhabituelles par rapport au même processus effectué sur les sites Web parents, celles-ci peuvent servir d’indication d’une tentative de phishing.
En fin de compte, le web scraping ne produit pas de méthodes complètement nouvelles, du moins pour autant que je sache, mais il permet les plus anciennes. Il offre un moyen de mettre à l’échelle des méthodes qui pourraient autrement être trop coûteuses à mettre en œuvre.
Lancer un filet
Avec une infrastructure de grattage Web appropriée, des millions de sites Web peuvent être consultés quotidiennement. Comme un grattoir collecte le HTML source, nous avons tout le contenu textuel stocké où nous le souhaitons. Quelques analyses plus tard, le contenu en texte brut peut être utilisé pour calculer TF-IDF. Un projet commencerait probablement par collecter toutes les mesures importantes des cibles de phishing populaires et passerait à la détection.
De plus, il y a beaucoup d’informations intéressantes que nous pouvons extraire de la source. Tous les liens internes peuvent être visités et stockés dans un index pour créer une représentation de la profondeur globale du lien.
Il est possible de détecter les tentatives de phishing en créant une arborescence de site Web via l’indexation avec un robot d’indexation Web. La plupart des sites Web de phishing seront superficiels pour les raisons décrites précédemment. D’autre part, les tentatives de phishing copient les sites Web d’entreprises bien établies. Ceux-ci auront de grandes profondeurs de lien. La faible profondeur en elle-même pourrait être un indicateur d’une tentative de phishing.
Néanmoins, les données collectées peuvent ensuite être utilisées pour comparer le TF-IDF, les mots clés, la profondeur des liens, l’âge du domaine, etc., aux métriques de sites Web légitimes. Une incompatibilité serait source de suspicion.
Il y a une mise en garde qui doit être décidée « sur le pouce » – quelle marge de différence est une cause à étudier ? Une ligne dans le sable doit être tracée quelque part et, au moins au début, elle devra être assez arbitraire.
De plus, il y a une considération importante pour les adresses IP et les emplacements. Certains contenus d’un site Web de phishing peuvent n’être visibles que pour les adresses IP d’un emplacement géographique spécifique (ou non d’un emplacement géographique spécifique). Contourner de tels problèmes, dans des circonstances régulières, est difficile, mais les procurations offrent une solution facile.
Étant donné qu’un proxy a toujours un emplacement et une adresse IP associés, un pool suffisamment grand fournira une couverture mondiale. Chaque fois qu’un bloc géographique est rencontré, un simple commutateur de proxy suffit pour franchir l’obstacle.
Enfin, le web scraping, de par sa nature, permet de découvrir de nombreuses données sur un sujet précis. La majeure partie est non structurée, quelque chose généralement fixé par analyse, et non étiqueté, quelque chose généralement fixé par les humains. Les données structurées et étiquetées peuvent constituer un excellent terrain pour les modèles d’apprentissage automatique.
Terminer l’hameçonnage
La création d’un détecteur de phishing automatisé par le biais du grattage Web produit de nombreuses données à évaluer. Une fois évaluées, les données perdraient généralement leur valeur. Cependant, comme pour le recyclage, ces informations peuvent être réutilisées avec quelques retouches.
Les modèles d’apprentissage automatique ont l’inconvénient de nécessiter d’énormes quantités de données pour commencer à faire des prédictions de qualité acceptable. Pourtant, si les algorithmes de détection de phishing commençaient à utiliser le web scraping, cette quantité de données serait produite naturellement. Bien sûr, un étiquetage pourrait être nécessaire, ce qui demanderait un effort manuel considérable.
Indépendamment de cela, l’information serait déjà structurée de manière à produire des résultats acceptables. Bien que tous les modèles d’apprentissage automatique soient des boîtes noires, ils ne sont pas entièrement opaques. Nous pouvons prédire que des données structurées et étiquetées d’une certaine manière produiront certains résultats.
Pour plus de clarté, les modèles d’apprentissage automatique pourraient être considérés comme l’application des mathématiques à la physique. Certaines modélisations mathématiques semblent s’adapter exceptionnellement bien aux phénomènes naturels tels que la gravité. L’attraction gravitationnelle peut être calculée en multipliant la constante gravitationnelle par la masse de deux objets et en divisant le résultat par la distance entre eux au carré. Cependant, si nous ne connaissions que les données requises, cela ne nous donnerait aucune compréhension de la gravité elle-même.
Les modèles d’apprentissage automatique sont sensiblement les mêmes. Une certaine structure de données produit des résultats attendus. Cependant, la façon dont ces modèles arrivent à leurs prédictions ne sera pas claire. Dans le même temps, à toutes les étapes, le reste est comme prévu. Ainsi, en dehors des cas marginaux, le caractère « boîte noire » ne nuit pas trop aux résultats.
De plus, les modèles d’apprentissage automatique semblent être parmi les méthodes les plus efficaces pour détecter le phishing. Certains robots d’exploration automatisés avec des implémentations ML pourraient atteindre une précision de 99 %, selon les recherches de Springer Link.
L’avenir du web scraping
Le grattage Web semble être le complément parfait à toutes les solutions de phishing actuelles. Après tout, la majeure partie de la cybersécurité passe par de vastes tableaux de données pour prendre les bonnes décisions de protection. L’hameçonnage n’est pas différent. Au moins à travers le prisme de la cybersécurité.
Il semble y avoir une sainte trinité dans la cybersécurité qui attend d’être exploitée à son plein potentiel : l’analyse, le grattage Web et l’apprentissage automatique. Il y a eu quelques tentatives pour combiner deux des trois ensemble. Cependant, je n’ai pas encore vu les trois exploités à leur plein potentiel.