2024 - Le « moment GPT » de la robotique IA est proche

Peter Chen est PDG et co-fondateur de Covariant, le leader mondial de la robotique IA. Avant de fonder Covariant, Peter était chercheur scientifique chez OpenAI et chercheur au laboratoire de recherche sur l’intelligence artificielle de Berkeley (BAIR), où il se concentrait sur l’apprentissage par renforcement, le méta-apprentissage et l’apprentissage non supervisé.

Ce n’est un secret pour personne : les modèles fondateurs ont transformé l’IA dans le monde numérique. Les grands modèles linguistiques (LLM) comme ChatGPT, LLaMA et Bard ont révolutionné l’IA pour le langage. Bien que les modèles GPT d’OpenAI ne soient pas le seul grand modèle de langage disponible, ils ont atteint la reconnaissance la plus courante pour prendre des entrées de texte et d’images et fournir des réponses de type humain, même pour certaines tâches nécessitant une résolution de problèmes complexe et un raisonnement avancé.

L’adoption virale et généralisée de ChatGPT a largement façonné la façon dont la société comprend ce nouveau moment pour l’intelligence artificielle.

La robotique est la prochaine avancée qui définira l’IA pour des générations. Construire des robots basés sur l’IA capables d’apprendre à interagir avec le monde physique améliorera toutes les formes de travail répétitif dans des secteurs allant de la logistique, du transport et de la fabrication à la vente au détail, à l’agriculture et même à la santé. Cela permettra également de réaliser autant d’efficacités dans le monde physique que celles que nous avons vues dans le monde numérique au cours des dernières décennies.

Bien qu’il existe un ensemble unique de problèmes à résoudre en robotique par rapport au langage, il existe des similitudes entre les concepts fondamentaux fondamentaux. Et certains des esprits les plus brillants de l’IA ont réalisé des progrès significatifs dans la construction du « GPT pour la robotique ».

Qu’est-ce qui permet le succès de GPT ?

Pour comprendre comment construire le « GPT pour la robotique », examinez d’abord les piliers fondamentaux qui ont permis le succès des LLM tels que le GPT.

Approche du modèle de fondation

GPT est un modèle d’IA formé sur un ensemble de données vaste et diversifié. Les ingénieurs collectaient auparavant des données et formaient une IA spécifique pour un problème spécifique. Ensuite, ils devraient collecter de nouvelles données pour en résoudre une autre. Un autre problème? Encore de nouvelles données. Aujourd’hui, avec une approche basée sur un modèle de fondation, c’est exactement le contraire qui se produit.

Au lieu de créer des IA de niche pour chaque cas d’utilisation, une seule peut être utilisée universellement. Et ce modèle très général connaît plus de succès que tous les modèles spécialisés. L’IA dans un modèle de base est plus performante sur une tâche spécifique. Il peut tirer parti des enseignements tirés d’autres tâches et mieux les généraliser à de nouvelles tâches, car il a acquis des compétences supplémentaires en devant bien performer dans un ensemble diversifié de tâches.

Formation sur un ensemble de données volumineux, propriétaire et de haute qualité

Pour disposer d’une IA généralisée, il faut d’abord accéder à une grande quantité de données diverses. OpenAI a obtenu les données du monde réel nécessaires pour entraîner les modèles GPT de manière raisonnablement efficace. GPT s’est formé sur les données collectées sur l’ensemble d’Internet avec un ensemble de données vaste et diversifié, comprenant des livres, des articles de presse, des publications sur les réseaux sociaux, du code, etc.

Construire des robots basés sur l’IA capables d’apprendre à interagir avec le monde physique améliorera toutes les formes de travail répétitif.

Ce n’est pas seulement la taille de l’ensemble de données qui compte ; la conservation de données de haute qualité et de grande valeur joue également un rôle important. Les modèles GPT ont atteint des performances sans précédent car leurs ensembles de données de haute qualité s’appuient principalement sur les tâches qui intéressent les utilisateurs et sur les réponses les plus utiles.

Rôle de l’apprentissage par renforcement (RL)

OpenAI utilise l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) pour aligner la réponse du modèle sur les préférences humaines (par exemple, ce qui est considéré comme bénéfique pour un utilisateur). Il doit y avoir plus qu’un pur apprentissage supervisé (SL), car SL ne peut aborder un problème qu’avec un modèle clair ou un ensemble d’exemples. Les LLM nécessitent que l’IA atteigne un objectif sans réponse unique et correcte. Entrez RLHF.

RLHF permet à l’algorithme d’avancer vers un objectif par essais et erreurs pendant qu’un humain reconnaît les réponses correctes (récompense élevée) ou rejette les réponses incorrectes (faible récompense). L’IA trouve la fonction de récompense qui explique le mieux la préférence humaine, puis utilise RL pour apprendre comment y parvenir. ChatGPT peut fournir des réponses qui reflètent ou dépassent les capacités humaines en apprenant des commentaires humains.

La prochaine frontière des modèles de fondations se situe dans la robotique

La même technologie de base qui permet à GPT de voir, de penser et même de parler permet également aux machines de voir, de penser et d’agir. Les robots alimentés par un modèle de base peuvent comprendre leur environnement physique, prendre des décisions éclairées et adapter leurs actions aux circonstances changeantes.

Le « GPT pour la robotique » est construit de la même manière que le GPT, jetant les bases d’une révolution qui redéfinira une fois de plus l’IA telle que nous la connaissons.

Approche du modèle de fondation

En adoptant une approche de modèle de base, vous pouvez également créer une IA qui fonctionne sur plusieurs tâches dans le monde physique. Il y a quelques années, des experts ont conseillé de créer une IA spécialisée pour les robots qui sélectionnent et emballent les produits d’épicerie. Et c’est différent d’un modèle capable de trier diverses pièces électriques, qui est différent du modèle déchargeant des palettes d’un camion.

Ce changement de paradigme vers un modèle de base permet à l’IA de mieux répondre aux scénarios extrêmes qui existent fréquemment dans des environnements réels non structurés et qui pourraient autrement bloquer les modèles avec une formation plus étroite. Construire une IA généralisée pour tous ces scénarios est plus efficace. C’est en s’entraînant sur tout que l’on obtient l’autonomie humaine qui nous manquait dans les générations précédentes de robots.

Formation sur un ensemble de données volumineux, propriétaire et de haute qualité

Apprendre à un robot à comprendre quelles actions mènent au succès et ce qui mène à l’échec est extrêmement difficile. Cela nécessite de nombreuses données de haute qualité basées sur des interactions physiques réelles. Les paramètres d’un laboratoire unique ou les exemples vidéo ne sont pas des sources suffisamment fiables ou suffisamment robustes (par exemple, les vidéos YouTube ne parviennent pas à traduire les détails de l’interaction physique et les ensembles de données académiques ont tendance à avoir une portée limitée).

Contrairement à l’IA pour le traitement du langage ou des images, aucun ensemble de données préexistant ne représente la manière dont les robots devraient interagir avec le monde physique. Ainsi, un ensemble de données volumineux et de haute qualité devient un défi plus complexe à résoudre en robotique, et le déploiement d’une flotte de robots en production est le seul moyen de créer un ensemble de données diversifié.

Rôle de l’apprentissage par renforcement

Semblable à la réponse à des questions textuelles avec des capacités de niveau humain, le contrôle et la manipulation robotiques nécessitent qu’un agent cherche à progresser vers un objectif qui n’a pas de réponse unique, unique et correcte (par exemple, « Quelle est la manière efficace de ramasser cet oignon rouge ? ») . Une fois de plus, il faut plus qu’un pur apprentissage supervisé.

Vous avez besoin d’un robot exécutant un apprentissage par renforcement profond (deep RL) pour réussir en robotique. Cette approche autonome et d’auto-apprentissage combine la RL avec des réseaux neuronaux profonds pour débloquer des niveaux de performances plus élevés : l’IA adaptera automatiquement ses stratégies d’apprentissage et continuera d’affiner ses compétences à mesure qu’elle expérimente de nouveaux scénarios.

Une croissance difficile et explosive à venir

Au cours des dernières années, certains des plus brillants experts mondiaux en IA et en robotique ont jeté les bases techniques et commerciales d’une révolution des modèles de base robotique qui redéfinira l’avenir de l’intelligence artificielle.

Bien que ces modèles d’IA aient été construits de manière similaire à GPT, atteindre l’autonomie au niveau humain dans le monde physique constitue un défi scientifique différent pour deux raisons :

La création d’un produit basé sur l’IA pouvant servir une variété de contextes du monde réel nécessite un ensemble remarquable d’exigences physiques complexes. L’IA doit s’adapter à différentes applications matérielles, car il est peu probable qu’un seul matériel puisse fonctionner dans diverses industries (logistique, transport, fabrication, vente au détail, agriculture, soins de santé, etc.) et activités au sein de chaque secteur.
Les entrepôts et les centres de distribution constituent un environnement d’apprentissage idéal pour les modèles d’IA dans le monde physique. Il est courant que des centaines de milliers, voire des millions d’unités de gestion des stocks (SKU) différentes circulent dans n’importe quelle installation à un moment donné, fournissant ainsi l’ensemble de données volumineux, exclusif et de haute qualité nécessaire à la formation du « GPT pour la robotique ».

Le « moment GPT » de la robotique IA est proche

La trajectoire de croissance des modèles de fondations robotiques s’accélère à un rythme très rapide. Les applications robotiques, en particulier dans les tâches qui nécessitent une manipulation précise d’objets, sont déjà appliquées dans des environnements de production réels – et nous verrons un nombre exponentiel d’applications robotiques commercialement viables déployées à grande échelle en 2024.

Chen a publié plus de 30 articles universitaires parus dans les principales revues mondiales sur l’IA et l’apprentissage automatique.

Source-146

Les Européens ont plus de temps, les Américains plus d’argent. Ce qui est mieux?

Carson Jerema : Le Freedom Convoy était mauvais. Les camps du Hamas sont bien pires

Venom : The Last Dance est le dernier film Venom, déclare le président de Sony Pictures

X-Men ’97 : Saison 1, Épisode 9 – « La tolérance, c’est l’extinction – Partie 2 »

Le « moment GPT » de la robotique IA est proche

Qu’est-ce qui permet le succès de GPT ?

Approche du modèle de fondation

Formation sur un ensemble de données volumineux, propriétaire et de haute qualité

Rôle de l’apprentissage par renforcement (RL)

La prochaine frontière des modèles de fondations se situe dans la robotique

Approche du modèle de fondation

Formation sur un ensemble de données volumineux, propriétaire et de haute qualité

Rôle de l’apprentissage par renforcement

Une croissance difficile et explosive à venir

Le « moment GPT » de la robotique IA est proche