Ce que l’évolution de notre propre cerveau peut nous apprendre sur l’avenir de l’IA

La croissance explosive de l’intelligence artificielle ces dernières années – couronnée par l’essor fulgurant des chatbots génératifs d’IA comme ChatGPT – a vu la technologie assumer de nombreuses tâches qui, autrefois, seuls l’esprit humain pouvaient s’acquitter. Mais malgré leurs calculs linguistiques de plus en plus performants, ces systèmes d’apprentissage automatique restent étonnamment incapables de réaliser le genre de sauts cognitifs et de déductions logiques que même l’adolescent moyen peut systématiquement réussir.

Dans l’extrait de Hitting the Books de cette semaine, A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains, l’entrepreneur en IA Max Bennett explore l’écart interrogateur dans les compétences informatiques en explorant le développement de la machine organique sur laquelle les IA sont modelées. : le cerveau humain.

En se concentrant sur les cinq « percées » évolutives, au milieu d’une myriade d’impasses génétiques et de rejetons infructueux, qui ont conduit notre espèce à notre esprit moderne, Bennett montre également que les mêmes progrès qui ont mis des éternités à évoluer peuvent être adaptés pour aider à guider le développement de l’IA. technologies de demain. Dans l’extrait ci-dessous, nous examinons comment les systèmes d’IA générative comme GPT-3 sont conçus pour imiter les fonctions prédictives du néocortex, mais ne peuvent toujours pas assez comprendre les aléas de la parole humaine.

HarperCollins

Extrait de Une brève histoire de l’intelligence : l’évolution, l’IA et les cinq avancées qui ont façonné notre cerveau par Max Bennett. Publié par Mariner Books. Copyright © 2023 par Max Bennett. Tous droits réservés.


Des mots sans mondes intérieurs

GPT-3 est donné mot après mot, phrase après phrase, paragraphe après paragraphe. Au cours de ce long processus de formation, il essaie de prédire le mot suivant dans l’un de ces longs flux de mots. Et à chaque prédiction, le poids de son réseau neuronal gargantuesque est légèrement poussé vers la bonne réponse. Faites cela un nombre astronomique de fois, et finalement GPT-3 peut automatiquement prédire le mot suivant en fonction d’une phrase ou d’un paragraphe précédent. En principe, cela reflète au moins certains aspects fondamentaux du fonctionnement du langage dans le cerveau humain. Considérez à quel point il est automatique pour vous de prédire le prochain symbole dans les phrases suivantes :

  • Un plus un égale _____

  • Les roses sont rouges, les violettes sont _____

Vous avez vu des phrases similaires à maintes reprises, donc votre machinerie néocorticale prédit automatiquement quel mot viendra ensuite. Ce qui rend GPT-3 impressionnant, cependant, n’est pas qu’il prédit simplement le mot suivant d’une séquence qu’il a vue un million de fois – cela pourrait être accompli avec rien de plus que la mémorisation de phrases. Ce qui est impressionnant, c’est que GPT-3 peut recevoir un roman séquence qu’il n’a jamais vue auparavant tout en prédisant avec précision le mot suivant. Cela aussi reflète clairement quelque chose que le cerveau humain peut _____.

Pourriez-vous prédire que le prochain mot serait faire? Je suppose que vous pourriez le faire, même si vous n’aviez jamais vu cette phrase exacte auparavant. Le fait est que GPT-3 et les aires néocorticales du langage semblent s’engager dans la prédiction. Tous deux peuvent généraliser des expériences passées, les appliquer à de nouvelles phrases et deviner la suite.

GPT-3 et des modèles de langage similaires démontrent comment un réseau de neurones peut raisonnablement capturer les règles de grammaire, de syntaxe et de contexte si on lui laisse suffisamment de temps pour apprendre. Mais même si cela montre que la prédiction est partie des mécanismes du langage, cela signifie-t-il que la prédiction est tout ce qu’il y a au langage humain ? Essayez de terminer ces quatre questions :

  • Si 3X + 1 = 3, alors x est égal à _____

  • Je suis dans mon sous-sol sans fenêtre, je regarde vers le ciel et je vois _____

  • Il a lancé la balle à 100 pieds au-dessus de ma tête, j’ai levé la main pour l’attraper, j’ai sauté et _____

  • Je conduis aussi vite que possible jusqu’à Los Angeles depuis New York. Une heure après avoir traversé Chicago, j’ai enfin _____

Ici, quelque chose de différent se produit. Lors de la première question, vous avez probablement fait une pause et effectué un peu de calcul mental avant de pouvoir répondre à la question. Dans les autres questions, vous avez probablement, même pendant une fraction de seconde seulement, fait une pause pour vous visualiser dans un sous-sol regardant vers le haut et réalisé que ce que vous verriez était le plafond. Ou vous vous êtes visualisé en train d’essayer d’attraper une balle de baseball à cent pieds au-dessus de votre tête. Ou vous vous imaginiez une heure après Chicago et essayiez de trouver où vous seriez sur une carte mentale de l’Amérique. Avec ce type de questions, il se passe bien plus dans votre cerveau que la simple prédiction automatique de mots.

Nous avons bien sûr déjà exploré ce phénomène : il s’agit d’une simulation. Dans ces questions, vous effectuez une simulation interne, soit de valeurs changeantes dans une série d’opérations algébriques, soit d’un sous-sol tridimensionnel. Et les réponses à ces questions se trouvent uniquement dans les règles et la structure de votre monde intérieur simulé.

J’ai posé les quatre mêmes questions à GPT-3 ; voici ses réponses (les réponses de GPT-3 sont en gras et soulignées) :

  • Si 3X + 1 = 3 , alors x est égal

  • Je suis dans mon sous-sol sans fenêtre, je regarde vers le ciel et je vois

  • Il a lancé la balle à 100 pieds au-dessus de ma tête, j’ai levé la main pour l’attraper, j’ai sauté,

  • Je conduis aussi vite que possible jusqu’à Los Angeles depuis New York. Une heure après avoir traversé Chicago, j’ai enfin .

Ces quatre réponses démontrent que GPT-3, en juin 2022, manquait de compréhension, même des aspects simples du fonctionnement du monde. Si 3X + 1 = 3, alors X est égal à 2/3, et non à 1. Si vous étiez dans un sous-sol et regardiez vers le ciel, vous verriez votre plafond, pas les étoiles. Si vous essayiez d’attraper une balle à 100 pieds au-dessus de votre tête, vous pas attraper la balle. Si vous vous rendiez à Los Angeles en voiture depuis New York et que vous aviez traversé Chicago il y a une heure, vous ne seriez pas encore sur la côte. Les réponses de GPT-3 manquaient de bon sens.

Ce que j’ai découvert n’était ni surprenant ni nouveau ; il est bien connu que les systèmes d’IA modernes, y compris ces nouveaux modèles linguistiques suralimentés, sont confrontés à de telles questions. Mais c’est là le point : même un modèle formé sur l’ensemble du corpus Internet, entraînant des millions de dollars en coûts de serveur – nécessitant des hectares d’ordinateurs sur une ferme de serveurs inconnue – toujours a du mal à répondre aux questions de bon sens, auxquelles même un humain du collège peut répondre.

Bien entendu, raisonner par simulation pose également des problèmes. Supposons que je vous pose la question suivante :

Tom W. est doux et reste seul. Il aime la musique douce et porte des lunettes. Quelle profession Tom W. est-il le plus susceptible d’exercer ?

1) Bibliothécaire

2) Ouvrier du bâtiment

Si vous êtes comme la plupart des gens, vous avez répondu bibliothécaire. Mais c’est faux. Les humains ont tendance à ignorer les taux de base. Avez-vous considéré le numéro de base des ouvriers du bâtiment par rapport aux bibliothécaires ? Il y a probablement cent fois plus d’ouvriers du bâtiment que de bibliothécaires. Et pour cette raison, même si 95 pour cent des bibliothécaires sont doux et seulement 5 pour cent des ouvriers du bâtiment le sont, il y aura toujours beaucoup plus d’ouvriers du bâtiment doux que de bibliothécaires doux. Ainsi, si Tom est doux, il est toujours plus susceptible d’être un ouvrier du bâtiment qu’un bibliothécaire.

L’idée selon laquelle le néocortex fonctionne en rendant une simulation interne et que c’est ainsi que les humains ont tendance à raisonner sur les choses explique pourquoi les humains se posent systématiquement des questions erronées comme celle-ci. Nous imaginer une personne douce et comparez cela à un bibliothécaire imaginaire et à un ouvrier du bâtiment imaginaire. À qui ressemble le plus la personne douce ? Le bibliothécaire. Les économistes comportementaux appellent cela l’heuristique représentative. C’est l’origine de nombreuses formes de préjugés inconscients. Si vous avez entendu l’histoire de quelqu’un qui volait votre ami, vous ne pouvez pas vous empêcher de représenter une scène imaginaire du vol, et vous ne pouvez pas vous empêcher de décrire les voleurs. À quoi ressemblent les voleurs pour vous ? Que portent-ils? De quelle race sont-ils ? Quel âge ont-ils? C’est un inconvénient du raisonnement par simulation : nous remplissons des personnages et des scènes, manquant souvent les véritables relations causales et statistiques entre les choses.

C’est avec des questions qui nécessitent une simulation que le langage dans le cerveau humain diverge du langage dans GPT-3. Les mathématiques en sont un excellent exemple. Les fondements des mathématiques commencent par l’étiquetage déclaratif. Vous levez deux doigts, deux pierres ou deux bâtons, vous engagez une attention partagée avec un élève et vous l’étiquetez. deux. Vous faites la même chose avec trois de chaque et vous l’étiquetez trois. Tout comme avec les verbes (par exemple, en cours d’exécution et dormir), en mathématiques, nous étiquetons les opérations (par exemple, ajouter et soustraire). On peut ainsi construire des phrases représentant des opérations mathématiques : trois, ajoutez-en un.

Les humains n’apprennent pas les mathématiques de la même manière que GPT-3 les apprend. En effet, les humains n’apprennent pas langue la façon dont GPT-3 apprend le langage. Les enfants ne se contentent pas d’écouter des séquences interminables de mots jusqu’à ce qu’ils puissent prédire ce qui va suivre. On leur montre un objet, ils s’engagent dans un mécanisme non verbal d’attention partagée, puis l’objet reçoit un nom. Le fondement de l’apprentissage des langues n’est pas l’apprentissage séquentiel mais l’attachement de symboles à des composants de la simulation intérieure déjà présente de l’enfant.

Un cerveau humain, mais pas GPT-3, peut vérifier les réponses aux opérations mathématiques à l’aide de la simulation mentale. Si vous en ajoutez un à trois avec vos doigts, vous remarquez que vous obtenez toujours ce qui était précédemment étiqueté. quatre.

Vous n’avez même pas besoin de vérifier ces choses sur vos doigts ; vous pouvez imaginer ces opérations. Cette capacité à trouver les réponses aux choses en simulant repose sur le fait que notre simulation intérieure est un rendu fidèle de la réalité. Quand j’imagine mentalement ajouter un doigt à trois doigts, puis que je compte les doigts dans ma tête, j’en compte quatre. Il n’y a aucune raison pour que cela soit le cas dans mon monde imaginaire. Mais il est. De même, lorsque je vous demande ce que vous voyez lorsque vous regardez vers le plafond de votre sous-sol, vous répondez correctement car la maison tridimensionnelle que vous avez construite dans votre tête obéit aux lois de la physique (vous ne pouvez pas voir à travers le plafond), et il est donc évident pour vous que le plafond du sous-sol se situe nécessairement entre vous et le ciel. Le néocortex a évolué bien avant les mots, déjà configuré pour restituer un monde simulé qui capture un ensemble incroyablement vaste et précis de règles physiques et d’attributs du monde réel.

Pour être juste, GPT-3 peut, en fait, répondre correctement à de nombreuses questions mathématiques. GPT-3 sera capable de répondre 1 + 1 =___ car il a vu cette séquence un milliard de fois. Lorsque vous répondez à la même question sans réfléchir, vous y répondez comme le ferait GPT-3. Mais quand tu penses à pourquoi 1 + 1 =, lorsque vous vous le prouvez à nouveau en imaginant mentalement l’opération consistant à ajouter une chose à une autre chose et à récupérer deux choses, alors vous savez que 1 + 1 = 2 d’une manière que GPT-3 ne fait pas.

Le cerveau humain contient à la fois un système de prédiction du langage et une simulation intérieure. La meilleure preuve de l’idée selon laquelle nous disposons de ces deux systèmes sont les expériences opposant un système à l’autre. Considérez le test de réflexion cognitive, conçu pour évaluer la capacité d’une personne à inhiber sa réponse réflexive (par exemple, les prédictions habituelles de mots) et à la place, réfléchissez activement à la réponse (par exemple, invoquez une simulation interne pour raisonner) :

Question 1 : Un bâton et une balle coûtent 1,10 $ au total. La batte coûte 1,00 $ de plus que la balle. Combien coûte le ballon ?

Si vous êtes comme la plupart des gens, votre instinct, sans y penser, vous pousse à répondre à dix cents. Mais si vous réfléchissiez à cette question, vous réaliseriez que c’est faux ; la réponse est cinq cents. De la même manière:

Question 2 : S’il faut 5 minutes à 5 machines pour créer 5 widgets, combien de temps faudrait-il à 100 machines pour créer 100 widgets ?

Là encore, si vous êtes comme la plupart des gens, votre instinct vous dit « Cent minutes », mais si vous y réfléchissez, vous réaliserez que la réponse est toujours cinq minutes.

Et en effet, en décembre 2022, GPT-3 s’est trompé sur ces deux questions exactement de la même manière que les gens, GPT-3 a répondu dix cents à la première question et cent minutes à la deuxième question.

Le fait est que le cerveau humain dispose d’un système automatique de prédiction des mots (probablement similaire, du moins en principe, à des modèles comme GPT-3) et d’une simulation interne. Une grande partie de ce qui rend le langage humain puissant n’est pas sa syntaxe, mais sa capacité à nous fournir les informations nécessaires pour en faire une simulation et, surtout, à utiliser ces séquences de mots pour rendre la même simulation intérieure que les autres humains autour de nous.

Source-145