Si l’IA rend le test de Turing obsolète, quoi de mieux ?

Si une machine ou un programme d’IA égale ou dépasse l’intelligence humaine, cela signifie-t-il qu’elle peut parfaitement simuler les humains ? Si oui, qu’en est-il du raisonnement – ​​notre capacité à appliquer la logique et à penser rationnellement avant de prendre des décisions ? Comment pourrions-nous même déterminer si un programme d’IA peut raisonner ? Pour tenter de répondre à cette question, une équipe de chercheurs a proposé un nouveau cadre qui fonctionne comme une étude psychologique pour les logiciels.

« Ce test traite un programme « intelligent » comme s’il participait à une étude psychologique et comporte trois étapes : (a) tester le programme dans une série d’expériences examinant ses inférences, (b) tester sa compréhension de sa propre manière de fonctionner. raisonnement, et (c) examiner, si possible, l’adéquation cognitive du code source du programme », notent les chercheurs.

Ils suggèrent que les méthodes standard d’évaluation de l’intelligence d’une machine, telles que le test de Turing, ne peuvent que vous indiquer si la machine est capable de traiter les informations et d’imiter les réponses humaines. Les générations actuelles de programmes d’IA, tels que LaMDA de Google et ChatGPT d’OpenAI, par exemple, ont failli réussir le test de Turing, mais les résultats des tests n’impliquent pas que ces programmes peuvent penser et raisonner comme les humains.

C’est pourquoi le test de Turing pourrait ne plus être pertinent, et de nouvelles méthodes d’évaluation permettant d’évaluer efficacement l’intelligence des machines sont nécessaires, selon les chercheurs. Ils affirment que leur cadre pourrait être une alternative au test de Turing. « Nous proposons de remplacer le test de Turing par un test plus ciblé et fondamental pour répondre à la question : les programmes raisonnent-ils de la même manière que les humains ? » affirment les auteurs de l’étude.

Quel est le problème avec le test de Turing ?

Pendant le test de Turing, les évaluateurs jouent à différents jeux impliquant des communications textuelles avec de vrais humains et des programmes d’IA (machines ou chatbots). Il s’agit d’un test aveugle, donc les évaluateurs ne savent pas s’ils envoient des SMS à un humain ou à un chatbot. Si les programmes d’IA réussissent à générer des réponses semblables à celles des humains – au point que les évaluateurs ont du mal à faire la distinction entre l’humain et le programme d’IA – l’IA est considérée comme ayant réussi. Cependant, puisque le test de Turing repose sur une interprétation subjective, ces résultats sont également subjectifs.

Les chercheurs suggèrent qu’il existe plusieurs limites associées au test de Turing. Par exemple, tous les jeux joués pendant le test sont des jeux d’imitation conçus pour tester si une machine peut ou non imiter un humain. Les évaluateurs prennent des décisions uniquement en fonction de la langue ou du ton des messages qu’ils reçoivent. ChatGPT est excellent pour imiter le langage humain, même dans les réponses où il donne des informations incorrectes. Ainsi, le test n’évalue clairement pas le raisonnement et la capacité logique d’une machine.

Les résultats du test de Turing ne peuvent pas non plus vous dire si une machine peut faire de l’introspection. Nous pensons souvent à nos actions passées et réfléchissons à nos vies et à nos décisions, une capacité essentielle qui nous empêche de répéter les mêmes erreurs. Il en va de même pour l’IA, selon une étude de l’Université de Stanford qui suggère que les machines capables d’auto-réflexion sont plus pratiques pour une utilisation humaine.

« Les agents d’IA capables de tirer parti de l’expérience antérieure et de bien s’adapter en explorant efficacement des environnements nouveaux ou changeants conduiront à des technologies beaucoup plus adaptatives et flexibles, de la robotique domestique aux outils d’apprentissage personnalisés », a déclaré Nick Haber, professeur adjoint à l’Université de Stanford, qui n’a pas participé. dans l’étude actuelle, a déclaré.

De plus, le test de Turing ne parvient pas à analyser la capacité de réflexion d’un programme d’IA. Lors d’une récente expérience du test de Turing, GPT-4 a réussi à convaincre les évaluateurs qu’ils envoyaient des SMS à des humains plus de 40 % du temps. Cependant, ce score ne répond pas à la question fondamentale : le programme d’IA peut-il penser ?

Alan Turing, le célèbre scientifique britannique qui a créé le test de Turing, a dit un jour : « Un ordinateur mériterait d’être qualifié d’intelligent s’il pouvait tromper un humain en lui faisant croire qu’il est humain. » Son test ne couvre cependant qu’un seul aspect de l’intelligence humaine : l’imitation. Bien qu’il soit possible de tromper quelqu’un en utilisant cet aspect, de nombreux experts estiment qu’une machine ne pourra jamais atteindre une véritable intelligence humaine sans inclure ces autres aspects.

« On ne sait pas vraiment si la réussite du test de Turing constitue ou non une étape importante. Cela ne nous dit rien sur ce qu’un système peut faire ou comprendre, ni sur s’il a établi des monologues internes complexes ou s’il peut s’engager dans une planification sur des horizons temporels abstraits, ce qui est la clé de l’intelligence humaine », Mustafa Suleyman, un expert en IA et fondateur de DeepAI, a déclaré Bloomberg.

Source-147