Dark Web ChatGPT Unleashed : Rencontrez DarkBERT

Nous sommes encore au début de l’effet boule de neige déclenché par la sortie de grands modèles de langage (LLM) comme ChatGPT dans la nature. Associé à l’open-sourcing d’autres modèles GPT (Generative Pre-Trained Transformer), le nombre d’applications utilisant l’IA explose ; et comme nous le savons, ChatGPT lui-même peut être utilisé pour créer des logiciels malveillants très avancés.

Au fil du temps, les LLM appliqués ne feront qu’augmenter, chacun se spécialisant dans son propre domaine, formé sur des données soigneusement conservées dans un but spécifique. Et une de ces applications vient de tomber, une qui a été formée sur les données du dark web lui-même. DarkBERT, comme l’appelaient ses créateurs sud-coréens, est arrivé – suivez ce lien pour le document de publication, qui donne une introduction générale au dark web lui-même.

DarkBERT est basé sur l’architecture RoBERTa, une approche d’IA développée en 2019. Il a connu une sorte de renaissance, les chercheurs découvrant qu’il avait en fait plus de performances à donner que ce qui pouvait en être extrait en 2019. Il semble que le modèle était gravement sous-formé lorsqu’il est relâché, bien en deçà de son efficacité maximale.

Pour former le modèle, les chercheurs ont exploré le Dark Web à travers le pare-feu anonymisant du réseau Tor, puis ont filtré les données brutes (en appliquant des techniques telles que la déduplication, l’équilibrage des catégories et le prétraitement des données) pour générer une base de données Dark Web. DarkBERT est le résultat de l’utilisation de cette base de données pour alimenter le RoBERTa Large Language Model, un modèle capable d’analyser un nouveau contenu du Dark Web – écrit dans ses propres dialectes et messages fortement codés – et d’en extraire des informations utiles.

Dire que l’anglais est la langue des affaires du Dark Web ne serait pas tout à fait correct, mais c’est une concoction suffisamment spécifique pour que les chercheurs pensent qu’un LLM spécifique devait y être formé. En fin de compte, ils avaient raison : les chercheurs ont montré que DarkBERT surpassait d’autres grands modèles de langage, ce qui devrait permettre aux chercheurs en sécurité et aux forces de l’ordre de pénétrer plus profondément dans les recoins du Web. C’est, après tout, là où se déroule l’essentiel de l’action.

Comme pour les autres LLM, cela ne signifie pas que DarkBERT est terminé, et une formation et un réglage supplémentaires peuvent continuer à améliorer ses résultats. Comment il sera utilisé et quelles connaissances pourront être glanées, reste à voir.

Source-138