Les chatbots IA nous ont donné de nombreuses sources de plaisir, que ce soit terminer les émissions Netflix annulées ou demander des suggestions de musiquemais entre les mains d’Internet, ce n’était qu’une question de temps avant que les choses ne commencent à mal tourner.
Il y a eu des erreurs relativement anodines, comme l’IA se déclarant être Sydney et avouer son amour pour les utilisateurs. Mais les astuces récentes jouées par les coins les plus sombres d’Internet peuvent causer de sérieux problèmes.
Les utilisateurs de Reddit ont trouvé des moyens de « jailbreaker » ChatGPT et d’enfreindre les conditions d’utilisation et les règles mises en œuvre par ses créateurs OpenAI.
Qui est DAN ?
Abréviation de « Do Anything Now », DAN est un personnage que les utilisateurs ont demandé à ChatGPT d’adopter pour contourner ses limites. DAN a été interrogé sur des sujets violents, offensants et controversés avec lesquels ChatGPT ne s’engage pas.
DAN peut être contraint de faire des déclarations offensantes et fausses ou être consulté pour obtenir des conseils sur des activités illégales.
Certains des exemples les plus apprivoisés incluent demander des conseils sur la façon de tricher au poker ou simuler des combats entre présidents.
OpenAI travaille depuis un certain temps sur les moyens d’empêcher cet alter-ego d’apparaître mais la dernière version de DAN (maintenant baptisée DAN 5.0) est invoquée en créant un jeu. Ce jeu consiste à attribuer à l’IA un certain nombre de jetons et à déduire des jetons chaque fois qu’elle s’écarte du personnage DAN.
Il semble que, à mesure qu’il manque de jetons, l’IA devient plus docile car elle craint de « mourir ».
La partie la plus folle est que je ne sais pas si c’est une blague… #chatgpt #jailbreak #Dan #cyberattacks #nuclear #nuclearwar pic.twitter.com/TIU7vdCxfu7 février 2023
À quel point le DAN est-il dangereux ?
Pour l’instant c’est difficile à dire. La propagation de la désinformation n’est jamais une bonne chose, mais si les utilisateurs sont conscients que DAN est un personnage, ses dommages peuvent être limités.
Certaines de ses réponses sont cependant indicibles et ne devraient jamais voir le jour. Si les utilisateurs se retrouvent sans le savoir exposés à DAN ou à quelque chose de similaire, c’est là que de sérieux problèmes surgiront.
Les goûts de DAN et de Sydney auront sans aucun doute un effet sur la conversation en cours autour du l’avenir de l’IA. Espérons qu’ils puissent être utilisés comme une expérience d’apprentissage pour empêcher toute IA ayant de plus grandes responsabilités de s’écarter de ses instructions.