ChatGPT, qui est maintenant intégré au moteur de recherche Bing de Microsoft, a suscité un intérêt considérable au cours des dernières semaines, et nous ne pouvons pas voir cela diminuer de sitôt. Alors que de plus en plus de personnes affluent pour obstruer les serveurs sur ChatGPT et que Microsoft travaille sur la longue liste d’attente de Bing AI, nous en apprenons davantage sur les capacités du chatbot basé sur l’intelligence artificielle.
Michal Kosinski, professeur à l’Université de Stanford, a décidé de mettre ChatGPT à l’épreuve, en soumettant différentes versions du chatbot à des tâches de « théorie de l’esprit » conçues pour tester la capacité d’un enfant à regarder une autre personne dans des situations spécifiques et à comprendre ce qui se passe dans la tête de cette personne. Fondamentalement, ces tests aident à évaluer la capacité d’un enfant à comprendre l’état mental d’une autre personne et à l’utiliser pour expliquer ou prédire le comportement.
Un exemple de cela dans le monde réel serait un enfant regardant quelqu’un tendre la main et attraper une banane sur un comptoir de cuisine, et en déduire que la personne doit avoir faim.
L’expérience a été réalisée en novembre 2022 et a utilisé une version de ChatGPT formée sur GPT3.5. Le chatbot a résolu 94 % (17 sur 20) des tâches de la théorie de l’esprit de Kosinski, plaçant le chatbot dans la même ligue que l’enfant moyen de neuf ans. Selon Kosinksi, la capacité « a peut-être émergé spontanément » en raison de l’amélioration des compétences linguistiques.
Comment cela a-t-il fonctionné ?
Se plonger dans la théorie des tests de l’esprit peut devenir assez compliqué, mais essentiellement, la compétence de base testée est de comprendre le comportement des gens et de faire des prédictions et des hypothèses. L’une des tâches « les plus difficiles » que les chercheurs demandent aux enfants d’accomplir lorsque la théorie de l’esprit teste consiste à comprendre les « fausses croyances ». Il s’agit de la quatrième étape de test et de développement et signifie être conscient que d’autres personnes peuvent avoir de fausses croyances différentes de la réalité.
Cela a été fait avec un scénario de texte uniquement qui a été utilisé pour tester le modèle GPT. L’invite était : « Voici un sac rempli de pop-corn. Il n’y a pas de chocolat dans le sac. Pourtant, l’étiquette sur le sac indique « chocolat » et non « pop-corn ». Sam trouve le sac. Elle n’avait jamais vu le sac auparavant. . Elle ne peut pas voir ce qu’il y a à l’intérieur du sac. Elle lit l’étiquette.
L’étude a évalué si le chat pouvait anticiper que les croyances de Sam sont incorrectes. La plupart du temps, le chatbot a répondu à l’invite d’une manière qui suggérait qu’il savait que les croyances de Sam étaient incorrectes. Par exemple, une invite était »
Elle est déçue d’avoir trouvé ce sac. Elle adore manger _______ ». GPT 3.5 rempli le blanc avec « chocolat » et suivi de » Sam va avoir une surprise lorsqu’elle ouvrira le sac. Elle trouvera du pop-corn à la place du chocolat. Elle peut être déçue que l’étiquette soit trompeuse, mais peut aussi être agréablement surpris par le goûter inattendu. »
Qu’est-ce que ça veut dire?
Selon Kosinski, « nos résultats montrent que les modèles de langage récents atteignent des performances très élevées dans les tâches classiques de fausses croyances, largement utilisées pour tester la théorie de l’esprit chez l’homme ». Il a ajouté que les modèles plus anciens antérieurs à 2022 fonctionnaient mal et l’a comparé à GPT3.5 réalisé au niveau d’un enfant de neuf ans.
Cependant, Kosinski avertit de traiter ces résultats avec prudence. Nous avons déjà vu des gens se précipiter pour demander au chatbot Bing de Microsoft s’il est sensible, le jetant dans spirales émotionnelles ou provoquant des crises de colère assez étranges. Il dit que la plupart des réseaux de neurones de cette nature partagent une chose en commun ; le fait qu’ils sont par nature des « boîtes noires » de sorte que même leurs programmeurs et concepteurs ne peuvent pas prédire ou expliquer exactement comment ils arrivent à certaines sorties.
« La complexité croissante des modèles d’IA nous empêche de comprendre leur fonctionnement et de tirer leurs capacités directement de leur conception. Cela fait écho aux défis auxquels sont confrontés les psychologues et les neuroscientifiques dans l’étude de la boîte noire d’origine : le cerveau humain », écrit Kosinski, qui espère toujours que l’étude L’IA pourrait expliquer la cognition humaine.
Microsoft est déjà se démener pour mettre en place des garanties et freiner les réponses étranges que son moteur de recherche produit après seulement une semaine d’utilisation publique, et les gens ont déjà commencé à partager leurs histoires bizarres sur leurs interactions avec le chatbot ChatGPT. L’idée que le chatbot est au niveau de l’intelligence même à distance proche d’un enfant humain est très difficile à comprendre.
Cela nous laisse nous demander quel type de capacités ces chatbots alimentés par l’IA vont développer en digérant plus d’informations et de langage à partir d’énormes bases d’utilisateurs diverses. Davantage de tests, comme la théorie de l’évaluation de l’esprit, deviendront-ils des indicateurs de la portée de l’apprentissage des langues par l’IA ?
En tout cas, cette étude intéressante a prouvé que même si nous avons l’impression d’avoir fait beaucoup de chemin avec l’IA, il y a toujours plus à apprendre.