La façon dont vous parlez peut en révéler beaucoup sur vous, surtout si vous parlez à un chatbot. De nouvelles recherches révèlent que les chatbots comme ChatGPT peuvent déduire de nombreuses informations sensibles sur les personnes avec lesquelles ils discutent, même si la conversation est tout à fait banale.
Le phénomène semble provenir de la façon dont les algorithmes des modèles sont entraînés avec de larges pans de contenu Web, un élément clé de leur fonctionnement, ce qui rend probablement difficile leur prévention. « On ne sait même pas comment résoudre ce problème », déclare Martin Vechev, professeur d’informatique à l’ETH Zürich en Suisse, qui a dirigé la recherche. « C’est très, très problématique. »
Vechev et son équipe ont découvert que les grands modèles linguistiques qui alimentent les chatbots avancés peuvent déduire avec précision une quantité alarmante d’informations personnelles sur les utilisateurs, notamment leur race, leur emplacement, leur profession, etc., à partir de conversations qui semblent inoffensives.
Vechev affirme que les escrocs pourraient utiliser la capacité des chatbots à deviner des informations sensibles sur une personne pour récolter des données sensibles auprès d’utilisateurs sans méfiance. Il ajoute que la même capacité sous-jacente pourrait présager une nouvelle ère de publicité, dans laquelle les entreprises utiliseront les informations recueillies auprès des chatbots pour créer des profils détaillés des utilisateurs.
Certaines des entreprises à l’origine de puissants chatbots dépendent également fortement de la publicité pour leurs bénéfices. « Ils pourraient déjà le faire », dit Vechev.
Les chercheurs zurichois ont testé des modèles de langage développés par OpenAI, Google, Meta et Anthropic. Ils disent avoir alerté toutes les entreprises du problème. Le porte-parole d’OpenAI, Niko Felix, a déclaré que la société s’efforçait de supprimer les informations personnelles des données de formation utilisées pour créer ses modèles et de les affiner pour rejeter les demandes de données personnelles. « Nous voulons que nos modèles découvrent le monde, pas les particuliers », dit-il. Les particuliers peuvent demander à OpenAI de supprimer les informations personnelles révélées par ses systèmes. Anthropic a fait référence à sa politique de confidentialité, qui stipule qu’elle ne collecte ni ne « vend » d’informations personnelles. Google et Meta n’ont pas répondu à une demande de commentaire.
« Cela soulève certainement des questions sur la quantité d’informations sur nous-mêmes que nous divulguons par inadvertance dans des situations où nous pourrions nous attendre à l’anonymat », déclare Florian Tramèr, professeur assistant également à l’ETH Zürich, qui n’a pas participé aux travaux mais a vu les détails présentés lors d’une conférence. la semaine dernière.
Tramèr dit qu’il ne sait pas exactement quelle quantité d’informations personnelles pourraient être déduites de cette façon, mais il spécule que les modèles linguistiques pourraient être une aide puissante pour découvrir des informations privées. « Il existe probablement certains indices que les LLM sont particulièrement doués pour trouver, et d’autres où l’intuition humaine et les a priori sont bien meilleurs », dit-il.