Les algorithmes d’apprentissage par renforcement dans des systèmes comme ChatGPT ou Gemini de Google peuvent faire des merveilles, mais ils ont généralement besoin de centaines de milliers de tirs sur une tâche avant de réussir. C’est pourquoi il a toujours été difficile de transférer ces performances aux robots. Vous ne pouvez pas laisser une voiture autonome s’écraser 3 000 fois simplement pour qu’elle apprenne que s’écraser est mauvais.
Mais maintenant, une équipe de chercheurs de l’Université Northwestern a peut-être trouvé un moyen de contourner ce problème. «C’est ce qui, à notre avis, va transformer le développement de l’IA incarnée dans le monde réel», déclare Thomas Berrueta, qui a dirigé le développement de l’apprentissage par renforcement par diffusion maximale (MaxDiff RL), un algorithme spécialement conçu pour les robots.
Introduire le chaos
Le problème lié au déploiement de la plupart des algorithmes d’apprentissage par renforcement dans les robots commence par l’hypothèse intrinsèque selon laquelle les données à partir desquelles ils apprennent sont indépendantes et distribuées de manière identique. L’indépendance, dans ce contexte, signifie que la valeur d’une variable ne dépend pas de la valeur d’une autre variable dans l’ensemble de données : lorsque vous lancez une pièce de monnaie deux fois, obtenir pile à la deuxième tentative ne dépend pas du résultat de votre premier lancer. . Une distribution identique signifie que la probabilité de voir un résultat spécifique est la même. Dans l’exemple du tirage au sort, la probabilité d’obtenir face est la même que d’obtenir face : 50 % pour chacun.
Dans les systèmes virtuels et désincarnés, comme les algorithmes de recommandation YouTube, il est facile d’obtenir de telles données car la plupart du temps, elles répondent d’emblée à ces exigences. « Vous avez un groupe d’utilisateurs sur un site Web, et vous obtenez des données de l’un d’entre eux, puis des données d’un autre. Très probablement, ces deux utilisateurs ne vivent pas dans le même foyer et ne sont pas très liés l’un à l’autre. C’est possible, mais c’est très peu probable », explique Todd Murphey, professeur de génie mécanique à Northwestern.
Le problème est que, si ces deux utilisateurs étaient liés l’un à l’autre et vivaient dans le même foyer, il se pourrait que la seule raison pour laquelle l’un d’eux a regardé une vidéo soit que son colocataire l’ait regardée et lui ait dit de la regarder. Cela violerait l’exigence d’indépendance et compromettrait l’apprentissage.
« Dans un robot, il n’est généralement pas possible d’obtenir ces données indépendantes et distribuées de manière identique. Vous existez à un moment précis de l’espace et du temps où vous êtes incarné, vos expériences doivent donc être corrélées d’une manière ou d’une autre », explique Berrueta. Pour résoudre ce problème, son équipe a conçu un algorithme qui pousse les robots à être aussi aventureux que possible afin d’acquérir le plus grand nombre d’expériences dont ils puissent tirer des leçons.
Deux saveurs d’entropie
L’idée en elle-même n’est pas nouvelle. Il y a près de deux décennies, les spécialistes de l’IA ont découvert des algorithmes, comme l’apprentissage par renforcement d’entropie maximale (MaxEnt RL), qui fonctionnaient en randomisant les actions pendant l’entraînement. « L’espoir était qu’en prenant un ensemble d’actions aussi diversifié que possible, vous explorerez des ensembles plus variés d’avenirs possibles. Le problème est que ces actions n’existent pas en vase clos », affirme Berrueta. Chaque action entreprise par un robot a un impact sur son environnement et sur sa propre condition – ignorer complètement ces impacts conduit souvent à des problèmes. Pour faire simple, une voiture autonome qui apprendrait elle-même à conduire en utilisant cette approche pourrait se garer élégamment dans votre allée, mais serait tout aussi susceptible de heurter un mur à pleine vitesse.
Pour résoudre ce problème, l’équipe de Berrueta s’est éloignée de la maximisation de la diversité des actions et a opté pour la maximisation de la diversité des changements d’état. Les robots alimentés par MaxDiff RL n’ont pas agité leurs articulations robotiques au hasard pour voir ce que cela donnerait. Au lieu de cela, ils ont conceptualisé des objectifs tels que « puis-je atteindre cet endroit devant moi » et ont ensuite essayé de déterminer quelles actions les y mèneraient en toute sécurité.
Berrueta et ses collègues y sont parvenus grâce à quelque chose appelé ergodicité, un concept mathématique qui dit qu’un point dans un système en mouvement finira par visiter toutes les parties de l’espace dans lequel le système se déplace. Fondamentalement, MaxDiff RL a encouragé les robots à atteindre tous les états disponibles dans leur environnement. Et les résultats des premiers tests dans des environnements simulés ont été assez surprenants.
Nouilles de piscine de course
« Dans l’apprentissage par renforcement, il existe des références standard sur lesquelles les gens exécutent leurs algorithmes afin que nous puissions avoir un bon moyen de comparer différents algorithmes sur un cadre standard », explique Allison Pinosky, chercheuse à Northwestern et co-auteur de l’étude MaxDiff RL. L’un de ces points de référence est un nageur simulé : un corps à trois maillons reposant sur le sol dans un environnement visqueux qui doit apprendre à nager aussi vite que possible dans une certaine direction.
Lors du test du nageur, MaxDiff RL a surpassé deux autres algorithmes d’apprentissage par renforcement de pointe (NN-MPPI et SAC). Ces deux-là ont eu besoin de plusieurs réinitialisations pour comprendre comment déplacer les nageurs. Pour accomplir cette tâche, ils suivaient un processus d’apprentissage standard de l’IA divisé en une phase de formation au cours de laquelle un algorithme passe par plusieurs tentatives infructueuses pour améliorer lentement ses performances, et une phase de test au cours de laquelle il tente d’effectuer la tâche apprise. MaxDiff RL, en revanche, a réussi, adaptant immédiatement ses comportements appris à la nouvelle tâche.
Les algorithmes précédents n’ont pas réussi à apprendre parce qu’ils se sont retrouvés bloqués à essayer les mêmes options et n’ont jamais progressé jusqu’à ce qu’ils puissent apprendre que les alternatives fonctionnent. « Ils ont expérimenté les mêmes données à plusieurs reprises parce qu’ils effectuaient certaines actions localement, et ils ont supposé que c’était tout ce qu’ils pouvaient faire et ont arrêté d’apprendre », explique Pinosky. MaxDiff RL, d’autre part, a continué à changer d’état, à explorer, à obtenir des données plus riches à partir desquelles apprendre, et a finalement réussi. Et parce que, de par sa conception, il cherche à atteindre tous les états possibles, il peut potentiellement accomplir toutes les tâches possibles au sein d’un environnement.
Mais cela signifie-t-il que nous pouvons prendre MaxDiff RL, le télécharger sur une voiture autonome et le laisser prendre la route pour tout comprendre par lui-même ? Pas vraiment.