Si l’IA veut conquérir le monde, pourquoi ne peut-elle pas résoudre le Spelling Bee ?

Ma tâche pour nos seigneurs de l’IA était simple : aidez-moi à déchiffrer le New York Times Abeille d’orthographe.

J’avais passé une grande partie d’un samedi soir à essayer de former les lettres G, Y, A, L, P, O et N en autant de mots que possible. Mais trois heures, 141 points et 37 mots – dont « non-apologie », « lagon » et « analogie » – plus tard, je me suis heurté à un mur. Quelques mots supplémentaires suffisaient pour me propulser dans l’échelon « génie » de Spelling Bee, le titre réservé à ceux qui déchiffrent 70 % de tous les mots possibles en utilisant les lettres données, et le point auquel le puzzle se considère, effectivement, résolu. . (100 % des solveurs reçoivent le rang de « reine des abeilles », mais même moi, j’ai des limites.)

Mon esprit humain était clairement en difficulté, mais cette tâche semblait être un jeu d’enfant pour l’IA, alors j’ai lancé ChatGPT, je lui ai dit que j’essayais de gagner le Spelling Bee, je lui ai donné mes lettres et j’ai établi les règles. « Donnez-moi une liste de tous les mots qui peuvent être formés avec eux », ai-je tapé. « Vous êtes autorisé à répéter des lettres, mais chaque mot doit contenir un ‘N’. »

Lorsque j’appuie sur Entrée, voici ce que ChatGPT a répondu :

Voici une liste de mots formés avec les lettres « GYALPON » qui doivent contenir la lettre « N » :
GLNPAYO
YPNL
PGNOYLE
ONAPYLG
LGNAPYO
ANLY
NAYGOPL
GYPONNE
AOGPLNY
PNAOGLY
Ceci n’est qu’un échantillon de la liste en raison du grand nombre de permutations possibles.

Ce n’est pas un bon début.

« Les mots doivent être dans le dictionnaire », ai-je répondu. « Bien sûr », fut la réponse. «Je fournirai une liste de mots anglais valides basés sur les lettres données.« ANGLY, GALON, LANG.

De toute évidence, cela ne fonctionnait pas, alors je me suis tourné vers Copilot de Microsoft (YANG, JOUER, PLANIFIER, ENNUYANT), Les Gémeaux de Google (GAPON, ALLER, GIAN), et Claude d’Anthropic (MANGUE, EN COURS, PELOUSE17.LAY). Meta AI m’a gentiment dit qu’elle veillait à n’inclure que les mots reconnus par les dictionnaires dans une liste contenant NALYP et NAGY, tandis que Perplexity – un chatbot avec l’ambition de tuer la recherche Google – a simplement écrit FILLE des centaines de fois avant de geler brusquement.

La perplexité est nulle à l'idée de résoudre le Spelling Bee

Perplexity, un chatbot ayant pour ambition de tuer la recherche Google, s’est effondré lorsqu’on lui a demandé de former des mots à partir d’un ensemble de lettres. (Capture d’écran de Pranav Dixit / Engadget)

L’IA peut désormais créer des images, des vidéos et de l’audio aussi rapidement que vous pouvez saisir les descriptions de ce que vous voulez. Il peut écrire de la poésie, des essais et des dissertations. Cela peut aussi être une pâle imitation de votre petite amie, de votre thérapeute et de votre assistante personnelle. Et beaucoup de gens pensent qu’elle est sur le point d’automatiser la suppression des emplois des humains et de transformer le monde d’une manière que nous pouvons à peine imaginer. Alors pourquoi est-ce si difficile de résoudre un simple casse-tête de mots ?

La réponse réside dans le fonctionnement des grands modèles de langage, la technologie sous-jacente qui alimente notre engouement moderne pour l’IA. La programmation informatique est traditionnellement logique et basée sur des règles ; vous tapez des commandes qu’un ordinateur suit selon un ensemble d’instructions, et cela fournit une sortie valide. Mais l’apprentissage automatique, dont l’IA générative est un sous-ensemble, est différent.

«C’est purement statistique», m’a dit Noah Giansiracusa, professeur de mathématiques et de science des données à l’Université Bentley. « Il s’agit en réalité d’extraire des modèles à partir de données, puis de diffuser de nouvelles données qui correspondent largement à ces modèles. »

OpenAI n’a pas répondu officiellement, mais un porte-parole de l’entreprise m’a dit que ce type de « retour d’information » avait aidé OpenAI à améliorer la compréhension du modèle et les réponses aux problèmes. « Des choses comme les structures de mots et les anagrammes ne sont pas un cas d’utilisation courant pour Perplexity, donc notre modèle n’est pas optimisé pour cela », m’a expliqué la porte-parole de l’entreprise, Sara Platnick. « En tant que lecteur quotidien de Wordle/Connections/Mini Crossword, j’ai hâte de voir comment nous nous en sortons ! » Microsoft et Meta ont refusé de commenter. Google et Anthropic n’ont pas répondu au moment de la publication.

Au cœur des grands modèles de langage se trouvent les « transformateurs », une avancée technique réalisée par des chercheurs de Google en 2017. Une fois que vous tapez une invite, un grand modèle de langage décompose les mots ou les fractions de ces mots en unités mathématiques appelées « jetons ». Les transformateurs sont capables d’analyser chaque jeton dans le contexte d’un ensemble de données plus vaste sur lequel un modèle est formé pour voir comment ils sont connectés les uns aux autres. Une fois qu’un transformateur comprend ces relations, il est capable de répondre à votre invite en devinant le prochain jeton probable dans une séquence. Le Temps Financier a un formidable explicatif animé qui explique tout cela si vous êtes intéressé.

La méta-IA n'a pas non plus réussi à résoudre le Spelling BeeLa méta-IA n'a pas non plus réussi à résoudre le Spelling Bee

J’ai mal tapé « bien sûr », mais Meta AI a pensé que je le suggérais comme un mot et m’a dit que j’avais raison. (Capture d’écran de Pranav Dixit / Engadget)

je pensée Je donnais aux chatbots des instructions précises pour générer mes mots Spelling Bee, tout ce qu’ils faisaient était de convertir mes mots en jetons et d’utiliser des transformateurs pour cracher des réponses plausibles. « Ce n’est pas la même chose que programmer un ordinateur ou taper une commande dans une invite DOS », a déclaré Giansiracusa. « Vos mots ont été traduits en chiffres et ils ont ensuite été traités statistiquement. » Il semble qu’une requête purement basée sur la logique soit la pire application des compétences de l’IA – un peu comme essayer de tourner une vis avec un marteau gourmand en ressources.

Le succès d’un modèle d’IA dépend également des données sur lesquelles il est formé. C’est pourquoi les sociétés d’IA concluent fébrilement des accords avec les éditeurs de presse en ce moment : plus les données de formation sont récentes, meilleures sont les réponses. L’IA générative, par exemple, n’arrive pas à suggérer des mouvements d’échecs, mais est au moins légèrement meilleure que la résolution d’énigmes de mots. Giansiracusa souligne que la surabondance de parties d’échecs disponibles sur Internet est presque certainement incluse dans les données de formation des modèles d’IA existants. « Je soupçonne qu’il n’y a tout simplement pas assez de jeux Spelling Bee annotés en ligne pour que l’IA puisse s’entraîner, comme il y a des jeux d’échecs », a-t-il déclaré.

« Si votre chatbot semble plus confus par un jeu de mots qu’un chat avec un Rubik’s cube, c’est parce qu’il n’a pas été spécialement formé pour jouer à des jeux de mots complexes », a déclaré Sandi Besen, chercheuse en intelligence artificielle chez Neudesic, une société d’IA appartenant à IBM. « Les jeux de mots ont des règles et des contraintes spécifiques qu’un modèle aurait du mal à respecter à moins d’y être spécifiquement invité pendant la formation, le réglage précis ou les incitations. »

« Si votre chatbot semble plus confus par un jeu de mots qu’un chat avec un Rubik’s cube, c’est parce qu’il n’a pas été spécialement entraîné pour jouer à des jeux de mots complexes. »

Rien de tout cela n’a empêché les plus grandes sociétés mondiales d’IA de commercialiser cette technologie comme une panacée, en exagérant souvent de manière grossière les affirmations sur ses capacités. En avril, OpenAI et Meta se sont vantés que leurs nouveaux modèles d’IA seraient capables de « raisonner » et de « planifier ». Dans une interview, Brad Lightcap, directeur des opérations d’OpenAI, a déclaré au Temps Financier que la prochaine génération de GPT, le modèle d’IA qui alimente ChatGPT, montrerait des progrès dans la résolution de « problèmes difficiles » tels que le raisonnement. Joelle Pineau, vice-présidente de la recherche en IA chez Meta, a déclaré à la publication que l’entreprise « travaillait dur pour trouver comment amener ces modèles non seulement à parler, mais aussi à raisonner, à planifier… à avoir de la mémoire ».

Mes tentatives répétées pour que GPT-4o et Llama 3 déchiffrent le Spelling Bee ont échoué de façon spectaculaire. Quand j’ai dit à ChatGPT que GALON, LANG et ANGLY n’étaient pas dans le dictionnaire, le chatbot a dit qu’il était d’accord avec moi et m’a suggéré GALVANOPIE plutôt. Lorsque j’ai mal saisi le mot « sûr » en « sur » dans ma réponse à l’offre de Meta AI de proposer plus de mots, le chatbot m’a dit que « sur » était, en effet, un autre mot qui peut être formé avec les lettres G, Y. , A, L, P, O et N.

Clairement, nous sommes encore loin de l’Intelligence Générale Artificielle, ce concept nébuleux décrivant le moment où les machines sont capables d’accomplir la plupart des tâches aussi bien, voire mieux, que les êtres humains. Certains experts, comme Yann LeCun, scientifique en chef de l’IA chez Meta, ont parlé ouvertement des limites des grands modèles de langage, affirmant qu’ils n’atteindront jamais l’intelligence du niveau humain puisqu’ils n’utilisent pas vraiment la logique. Lors d’un événement à Londres l’année dernière, LeCun a déclaré que la génération actuelle de modèles d’IA « ne comprend tout simplement pas comment fonctionne le monde. Ils ne sont pas capables de planifier. Ils ne sont pas capables de raisonner véritablement », a-t-il déclaré. « Nous ne disposons pas de voitures complètement autonomes et autonomes, capables de s’entraîner à conduire en 20 heures environ de pratique, ce qu’un jeune de 17 ans peut faire. »

Giansiracusa adopte cependant un ton plus prudent. « Nous ne savons pas vraiment comment raisonnent les humains, n’est-ce pas ? Nous ne savons pas ce qu’est réellement l’intelligence. Je ne sais pas si mon cerveau n’est qu’une grosse calculatrice statistique, un peu comme une version plus efficace d’un grand modèle de langage.

Peut-être que la clé pour vivre avec l’IA générative sans succomber au battage médiatique ou à l’anxiété est simplement de comprendre ses limites inhérentes. « Ces outils ne sont pas réellement conçus pour beaucoup de choses pour lesquelles les gens les utilisent », a déclaré Chirag Shah, professeur d’IA et d’apprentissage automatique à l’Université de Washington. Il a co-écrit un article de recherche de grande envergure en 2022 critiquant l’utilisation de grands modèles linguistiques dans les moteurs de recherche. Les entreprises technologiques, pense Shah, pourraient faire un bien meilleur travail en étant transparentes sur ce que l’IA peut et ne peut pas faire avant de nous l’imposer. Mais ce navire a peut-être déjà appareillé. Au cours des derniers mois, les plus grandes entreprises technologiques du monde – Microsoft, Meta, Samsung, Apple et Google – ont fait des déclarations visant à intégrer étroitement l’IA dans leurs produits, services et systèmes d’exploitation.

« Les robots sont nuls parce qu’ils n’ont pas été conçus pour cela », a déclaré Shah à propos de mon énigme du jeu de mots. Reste à savoir s’ils sont nuls face à tous les autres problèmes que les entreprises technologiques leur lancent.

Sinon, comment les chatbots IA vous ont-ils échoué ? Envoyez-moi un email à [email protected] et laisse moi savoir!

Mise à jour, 13 juin 2024, 16 h 19 HE : Cette histoire a été mise à jour pour inclure une déclaration de Perplexity.

Source-145