ChatGPT, sans doute le chatbot le plus célèbre de tous les temps, a acquis ses compétences conversationnelles parfois humaines en analysant des quantités absurdes de données textuelles : des millions de livres, d’articles, de pages Wikipédia et tout ce que ses créateurs ont pu trouver en explorant Internet.
Mais et si une IA avancée pouvait apprendre comme le fait un petit enfant, sans lire 80 millions de livres ni regarder 97 millions de chats ? Il fait tout juste ses premiers pas en explorant un nouveau monde incroyable sous la direction patiente de maman et papa. Une équipe de chercheurs de l’Université de New York vient de tenter le coup, et cela a en quelque sorte fonctionné.
Souvenirs d’enfance
« L’enjeu majeur de ce projet est ce débat classique entre l’éducation et la nature. Qu’est-ce qui est construit chez l’enfant et qu’est-ce qui peut être acquis grâce à l’expérience du monde ? déclare Wai Keen Vong, chercheur au NYU Center for Data Science. Pour le savoir, Vong et son équipe ont poussé un algorithme d’IA jusqu’à l’équivalent le plus proche possible de la petite enfance humaine. Pour ce faire, ils l’ont alimenté en alimentant une base de données appelée SAYCam-S, qui est remplie de séquences vidéo à la première personne prises par une caméra attachée à un bébé nommé Sam, enregistrées pendant que Sam faisait les choses habituelles de bébé entre le sixième et le 25e mois de sa vie. .
« Pour notre travail, nous avons utilisé un algorithme d’apprentissage multimodal, qui traitait les entrées visuelles : les images de la caméra et la parole dirigée par l’enfant », explique Vong. L’algorithme a été appelé Child’s View for Contrastive Learning (CVCL) ; cela fonctionnait en utilisant un encodeur visuel et un encodeur linguistique pour traduire des images et des mots en vecteurs descriptifs. Ensuite, un réseau de neurones a analysé ces équations pour trouver des modèles et a finalement appris à associer les bonnes images aux bons mots. (C’était un algorithme d’apprentissage multimodal générique, rien de révolutionnaire.)
Sur la base de seulement 61 heures d’éveil de Sam, soit environ 1 % de l’expérience de l’enfant, l’IA a appris à reconnaître le sable, le papier, les puzzles, les voitures et les balles dans les images. Il a fonctionné à égalité avec les algorithmes de reconnaissance d’images standard qui ont appris de la manière habituelle, à travers des millions d’exemples. Mais il ne parvenait pas à déterminer les mains, les pièces ou les paniers. Certaines choses n’ont tout simplement pas fonctionné ici.
Diaporamas imparfaits
Le problème était que l’IA ne percevait pas les expériences de Sam de la même manière. Parce que l’algorithme avait accès à des images individuelles annotées avec de la parole transcrite, il les considérait davantage comme un très long diaporama et non comme une expérience continue. « Cela a provoqué des artefacts d’apprentissage », explique Vong.
Par exemple, il a eu du mal avec le mot « mains » car les mains figuraient dans la plupart des images. De plus, les parents utilisaient le mot « mains » le plus souvent lorsque Sam était à la plage. Ainsi, l’IA a confondu « mains » et « sable », explique Vong. La même chose s’appliquait au mot « pièce ». Sam passait la plupart de son temps à l’intérieur et ses parents ne leur rappelaient pas constamment qu’ils étaient dans une pièce.
Ensuite, il y a eu un problème de fréquence des mots. Sam aimait jouer avec des balles, alors il a entendu le mot « balle » plusieurs fois. Il entendait cependant très rarement le mot « panier ».
L’IA n’a pas non plus saisi l’idée de mouvement. « Les mots associés au mouvement comme » pousser « , » tirer « , » tordre » – tous les verbes ont un élément temporel « , explique Vong. « C’est quelque chose sur lequel nous travaillons activement, en apprenant des vidéos. Nous savons déjà que l’utilisation de vidéos plutôt que d’images fixes permet de mieux comprendre les choses qui se déroulent au fil du temps », ajoute-t-il. La prochaine version devrait avoir réglé les enseignements tirés d’expériences continues.
Leçons de conduite
Évidemment, apprendre aux IA à reconnaître les balles dans les images a déjà été fait auparavant. Alors pourquoi le travail de l’équipe de Vong est-il si important qu’il a atterri dans Science, et non dans une publication de second rang spécifique à l’IA ? La réponse réside dans son potentiel à jeter les bases de progrès futurs.
C’est la première démonstration que l’IA peut apprendre efficacement à partir d’une expérience limitée et individualisée. C’est la différence entre collecter une monstrueuse base de données d’exemples de conduite provenant de centaines de milliers de Tesla pour apprendre à une IA à conduire une voiture et inscrire une seule Tesla à quelques leçons avec un instructeur d’auto-école. Ce dernier est plus simple, plus rapide et infiniment moins cher.
Nous sommes encore loin d’enseigner aux machines comme nous enseignons aux humains. « Le modèle que nous avons utilisé était passif ; il n’a pas été conçu pour produire des actions ou apporter des réponses à lui seul », explique Vong.
Pourtant, même ce système a de nombreuses pistes d’amélioration : utiliser une base de données plus grande que 1 % du temps de l’enfant, ou ajouter des informations en plus du texte et des images (le son, l’odeur, le toucher, la charge émotionnelle, etc.) pourraient potentiellement être inclus. « Mais tout cela peut être fait en développant l’IA dont nous disposons déjà et en ne partant pas de zéro », affirme Vong.
Ce qui suggère que nous sommes bien moins spéciaux que nous le pensions. « Qu’il s’agisse de conduite automobile ou d’apprentissage d’une langue, les humains sont tout simplement bien plus efficaces en matière d’échantillonnage que les IA. Une grande partie de notre travail consiste à comprendre ce qui nous rend si efficaces en matière d’échantillons et comment l’utiliser pour construire des machines plus intelligentes », explique Vong.
Jacek Krywko est un écrivain scientifique et technologique basé à Olsztyn, en Pologne. Il couvre l’exploration spatiale et la recherche sur l’intelligence artificielle.