2025 - Dark Web ChatGPT Unleashed : Rencontrez DarkBERT

Nous sommes encore au début de l’effet boule de neige déclenché par la sortie de grands modèles de langage (LLM) comme ChatGPT dans la nature. Associé à l’open-sourcing d’autres modèles GPT (Generative Pre-Trained Transformer), le nombre d’applications utilisant l’IA explose ; et comme nous le savons, ChatGPT lui-même peut être utilisé pour créer des logiciels malveillants très avancés.

Au fil du temps, les LLM appliqués ne feront qu’augmenter, chacun se spécialisant dans son propre domaine, formé sur des données soigneusement conservées dans un but spécifique. Et une de ces applications vient de tomber, une qui a été formée sur les données du dark web lui-même. DarkBERT, comme l’appelaient ses créateurs sud-coréens, est arrivé – suivez ce lien pour le document de publication, qui donne une introduction générale au dark web lui-même.

DarkBERT est basé sur l’architecture RoBERTa, une approche d’IA développée en 2019. Il a connu une sorte de renaissance, les chercheurs découvrant qu’il avait en fait plus de performances à donner que ce qui pouvait en être extrait en 2019. Il semble que le modèle était gravement sous-formé lorsqu’il est relâché, bien en deçà de son efficacité maximale.

Pour former le modèle, les chercheurs ont exploré le Dark Web à travers le pare-feu anonymisant du réseau Tor, puis ont filtré les données brutes (en appliquant des techniques telles que la déduplication, l’équilibrage des catégories et le prétraitement des données) pour générer une base de données Dark Web. DarkBERT est le résultat de l’utilisation de cette base de données pour alimenter le RoBERTa Large Language Model, un modèle capable d’analyser un nouveau contenu du Dark Web – écrit dans ses propres dialectes et messages fortement codés – et d’en extraire des informations utiles.

Dire que l’anglais est la langue des affaires du Dark Web ne serait pas tout à fait correct, mais c’est une concoction suffisamment spécifique pour que les chercheurs pensent qu’un LLM spécifique devait y être formé. En fin de compte, ils avaient raison : les chercheurs ont montré que DarkBERT surpassait d’autres grands modèles de langage, ce qui devrait permettre aux chercheurs en sécurité et aux forces de l’ordre de pénétrer plus profondément dans les recoins du Web. C’est, après tout, là où se déroule l’essentiel de l’action.

Comme pour les autres LLM, cela ne signifie pas que DarkBERT est terminé, et une formation et un réglage supplémentaires peuvent continuer à améliorer ses résultats. Comment il sera utilisé et quelles connaissances pourront être glanées, reste à voir.

Source-138

Dark Web ChatGPT Unleashed : Rencontrez DarkBERT

Latest

Industrie en crise : la navigation intérieure face aux défis de la baisse des niveaux d’eau

Découvrez pourquoi Charlie Sheen parle de Lisa Rinna : « Je ne pouvais pas vraiment prendre parti. »

Sami, la fille de Denise Richards, confie ne pas avoir eu de nouvelles de son père Charlie Sheen depuis 5 mois : ‘Il rate...

Israël intensifie son offensive militaire pour récupérer des territoires gazaouis, Netanyahu sous pression pour libérer les otages avant d’éradiquer le Hamas.

Le directeur de The Last of Us Part 2 soutient les mods sur PC, y compris Shrek Ellie

Nintendo Switch 2 : Annonce officielle de Mario Kart World, le nouveau jeu Mario Kart

Blockchain et données des utilisateurs de 23andMe : enjeux et défis face à la faillite

Annonce de la nouvelle fonctionnalité d’IA du Samsung Galaxy S25 disponible sur des modèles plus anciens de Samsung