Covariant a été fondée en 2017 avec un objectif simple : aider les robots à apprendre à mieux saisir des objets. C’est un grand besoin parmi ceux qui cherchent à automatiser les entrepôts, et c’est beaucoup plus complexe qu’il n’y paraît. La plupart des marchandises que nous rencontrons ont traversé un entrepôt à un moment donné. C’est une gamme incroyablement large de tailles, de formes, de textures et de couleurs.
La société Bay Area a construit un système basé sur l’IA qui forme des robots de réseau pour améliorer les sélections au fur et à mesure. Une démonstration sur le sol au ProMat de cette année montre à quelle vitesse un bras connecté est capable d’identifier, de saisir et de placer une large gamme d’objets différents.
Le co-fondateur et PDG Peter Chen s’est entretenu avec TechCrunch lors du salon la semaine dernière pour discuter de l’apprentissage robotique, de la construction de modèles fondamentaux et, bien sûr, de ChatGPT.
TechCrunch : Lorsque vous êtes une startup, il est logique d’utiliser autant de matériel standard que possible.
PC : Ouais. Covariant est parti d’un endroit très différent. Nous avons commencé avec du logiciel pur et de l’IA pure. Les premiers employés de l’entreprise étaient tous des chercheurs en intelligence artificielle. Nous n’avions pas d’ingénieurs en mécanique, personne en robotique. Cela nous a permis d’aller beaucoup plus loin dans l’IA que n’importe qui d’autre. Si vous regardez d’autres entreprises de robotique [at ProMat]ils utilisent probablement un modèle prêt à l’emploi ou un modèle open source – des choses qui ont été utilisées dans le milieu universitaire.
Comme ROS.
Ouais. ROS ou bibliothèques de vision par ordinateur open source, qui sont excellentes. Mais ce que nous faisons est fondamentalement différent. Nous examinons ce que les modèles d’IA académiques fournissent et ce n’est pas suffisant. L’IA académique est construite dans un environnement de laboratoire. Ils ne sont pas conçus pour résister aux tests du monde réel – en particulier les tests de nombreux clients, des millions de compétences, des millions de types d’éléments différents qui doivent être traités par la même IA.
De nombreux chercheurs adoptent de nombreuses approches différentes de l’apprentissage. En quoi le vôtre est-il différent ?
Une grande partie de l’équipe fondatrice venait d’OpenAI – comme trois des quatre co-fondateurs. Si vous regardez ce qu’OpenAI a fait au cours des trois ou quatre dernières années dans l’espace linguistique, il adopte essentiellement une approche de modèle de base pour le langage. Avant le récent ChatGPT, il existait de nombreuses IA de traitement du langage naturel. Recherche, traduction, détection de sentiments, détection de spam – il y avait beaucoup d’IA en langage naturel. L’approche avant GPT consiste, pour chaque cas d’utilisation, à former une IA spécifique, en utilisant un sous-ensemble de données plus petit. Regardez les résultats maintenant, et GPT abolit fondamentalement le domaine de la traduction, et il n’est même pas formé à la traduction. L’approche du modèle de base est essentiellement, au lieu d’utiliser de petites quantités de données spécifiques à une situation ou d’entraîner un modèle spécifique à une circonstance, formons un grand modèle généralisé de base sur beaucoup plus de données, de sorte que l’IA est plus généralisée.
Vous vous concentrez sur le prélèvement et le placement, mais posez-vous également les bases d’applications futures ?
Certainement. La capacité de préhension ou de pick and place est certainement la première capacité générale que nous donnons aux robots. Mais si vous regardez dans les coulisses, il y a beaucoup de compréhension 3D ou de compréhension d’objets. Il existe de nombreuses primitives cognitives qui sont généralisables à de futures applications robotiques. Cela étant dit, saisir ou cueillir est un espace si vaste que nous pouvons y travailler pendant un certain temps.
Vous allez après la sélection et le placement en premier parce qu’il y a un besoin clair pour cela.
Il y a un besoin clair, et il y a aussi un manque évident de technologie pour cela. Ce qui est intéressant, c’est que si vous étiez venu à cette émission il y a 10 ans, vous auriez pu trouver des robots de cueillette. Ils ne fonctionneraient tout simplement pas. L’industrie a lutté avec cela pendant très longtemps. Les gens ont dit que cela ne pouvait pas fonctionner sans l’IA, alors les gens ont essayé l’IA de niche et l’IA standard, et cela n’a pas fonctionné.
Vos systèmes alimentent une base de données centrale et chaque sélection informe les machines sur la manière de sélectionner à l’avenir.
Ouais. Le plus drôle, c’est que presque tous les objets que nous touchons passent par un entrepôt à un moment donné. C’est presque un lieu de compensation central de tout dans le monde physique. Lorsque vous commencez par créer une IA pour les entrepôts, c’est une excellente base pour l’IA qui sort des entrepôts. Disons que vous sortez une pomme du champ et que vous l’apportez à une usine agricole – elle a déjà vu une pomme. Il a déjà vu des fraises.
C’est un tête-à-tête. Je cueille une pomme dans un centre de distribution pour pouvoir cueillir une pomme dans un champ. Plus abstraitement, comment ces apprentissages peuvent-ils être appliqués à d’autres facettes de la vie ?
Si nous voulons prendre du recul par rapport à Covariant en particulier et réfléchir à la direction que prend la technologie, nous assistons à une convergence intéressante de l’IA, des logiciels et de la mécatronique. Traditionnellement, ces trois domaines sont quelque peu séparés les uns des autres. La mécatronique est ce que vous découvrirez en venant à ce salon. Il s’agit d’un mouvement reproductible. Si vous parlez aux vendeurs, ils vous parlent de fiabilité, comment cette machine peut faire la même chose encore et encore.
L’évolution vraiment étonnante que nous avons vue depuis la Silicon Valley au cours des 15 à 20 dernières années concerne les logiciels. Les gens ont déchiffré le code sur la façon de créer des logiciels vraiment complexes et très intelligents. Toutes ces applications que nous utilisons sont en fait des personnes qui exploitent les capacités des logiciels. Nous sommes maintenant aux premières loges de l’IA, avec toutes les avancées incroyables. Quand vous me demandez ce qu’il y a au-delà des entrepôts, où je vois que cela va vraiment, c’est la convergence de ces trois tendances pour construire des machines physiques hautement autonomes dans le monde. Il faut la convergence de toutes les technologies.
Vous avez mentionné l’arrivée de ChatGPT et l’aveuglement des personnes qui fabriquent des logiciels de traduction. C’est quelque chose qui se passe dans la technologie. Avez-vous peur qu’un GPT arrive et aveugle efficacement le travail de Covariant ?
C’est une bonne question pour beaucoup de gens, mais je pense que nous avions un avantage injuste dans la mesure où nous avons commencé avec à peu près la même conviction qu’OpenAI avait avec la construction de modèles fondamentaux. L’IA générale est une meilleure approche que la création d’une IA de niche. C’est ce que nous faisons depuis cinq ans. Je dirais que nous sommes en très bonne position, et nous sommes très heureux qu’OpenAI ait démontré que cette philosophie fonctionne vraiment bien. Nous sommes très enthousiastes à l’idée de faire cela dans le monde de la robotique.