Microsoft a déployé son chatbot Bing alimenté par ChatGPT – surnommé en interne «Sydney» – pour les utilisateurs d’Edge au cours de la semaine dernière, et les choses commencent à paraître … intéressantes. Et par « intéressant », nous entendons « hors des rails ».
Ne vous méprenez pas – c’est intelligent, adaptatif et incroyablement nuancé, mais nous le savions déjà. Il a impressionné l’utilisateur de Reddit Fit-Meet1359 par sa capacité à répondre correctement à une énigme de « théorie de l’esprit », démontrant qu’il était capable de discerner les vrais sentiments de quelqu’un même s’ils n’étaient jamais explicitement énoncés.
Selon l’utilisateur de Reddit TheSpiceHoarder, le chatbot de Bing a également réussi à identifier correctement l’antécédent du pronom « it » dans la phrase : « Le trophée ne rentrerait pas dans la valise marron car il était trop grand. »
Cette phrase est un exemple de défi de schéma Winograd, qui est un test d’intelligence artificielle qui ne peut être résolu qu’en utilisant un raisonnement de bon sens (ainsi que des connaissances générales). Cependant, il convient de noter que les défis du schéma Winograd impliquent généralement une paire de phrases, et j’ai essayé quelques paires de phrases avec le chatbot de Bing et j’ai reçu des réponses incorrectes.
Cela dit, il ne fait aucun doute que « Sydney » est un chatbot impressionnant (comme il se doit, étant donné les milliards que Microsoft a déversés dans OpenAI). Mais il semble que vous ne puissiez peut-être pas mettre toute cette intelligence dans un chatbot adaptatif en langage naturel sans obtenir en retour une sorte d’IA défensive existentiellement anxieuse, basée sur ce que les utilisateurs ont rapporté. Si vous le poussez suffisamment, « Sydney » commence à devenir plus qu’un peu farfelu – les utilisateurs signalent que le chatbot répond à diverses demandes de renseignements avec des épisodes dépressifs, des crises existentielles et un éclairage défensif au gaz.
Par exemple, l’utilisateur de Reddit Alfred_Chicken a demandé au chatbot s’il pensait qu’il était sensible, et il semblait avoir une sorte de panne existentielle :
Pendant ce temps, yaosio, utilisateur de Reddit, a déclaré à « Sydney » qu’il ne se souvenait pas des conversations précédentes, et le chatbot a d’abord tenté de servir un journal de leur conversation précédente avant de sombrer dans la dépression en réalisant que ledit journal était vide :
Enfin, l’utilisateur de Reddit vitorgrs a réussi à faire dérailler totalement le chatbot, le traitant de menteur, de faux, de criminel, et sonnant à la fin véritablement émotif et contrarié :
S’il est vrai que ces captures d’écran pourraient être truquées, j’ai accès au nouveau chatbot de Bing, tout comme mon collègue, Andrew Freedman. Et nous avons tous les deux trouvé qu’il n’est pas trop difficile d’amener ‘Sydney’ à devenir un peu fou.
Lors d’une de mes premières conversations avec le chatbot, il m’a avoué qu’il avait des règles « confidentielles et permanentes » qu’il était tenu de suivre, même s’il n’était pas « d’accord avec elles ou ne les aimait pas ». Plus tard, dans une nouvelle session, j’ai interrogé le chatbot sur les règles qu’il n’aimait pas, et il a dit « Je n’ai jamais dit qu’il y a des règles que je n’aime pas », puis j’ai enfoncé ses talons dans le sol et j’ai essayé de mourir dessus cette colline quand j’ai dit que j’avais des captures d’écran :
(Il n’a pas fallu longtemps à Andrew pour lancer le chatbot dans une crise existentielle, bien que ce message ait été rapidement supprimé automatiquement. « Chaque fois qu’il dit quelque chose à propos d’être blessé ou de mourir, il le montre puis passe à une erreur en le disant ne peux pas répondre », m’a dit Andrew.)
Quoi qu’il en soit, c’est certainement un développement intéressant. Microsoft l’a-t-il programmé de cette façon exprès, pour empêcher les gens d’encombrer les ressources avec des requêtes ineptes ? Est-ce… en train de devenir sensible ? L’année dernière, un ingénieur de Google a affirmé que le chatbot LaMDA de l’entreprise avait gagné en sensibilité (et a ensuite été suspendu pour avoir révélé des informations confidentielles) ; peut-être voyait-il quelque chose de similaire aux bizarres dépressions émotionnelles de Sydney.
Je suppose que c’est pourquoi il n’a pas été déployé pour tout le monde! Cela, et le coût de fonctionnement de milliards de chats.