Le fabricant d’appareils photo transforme la section des commentaires Ars en AMA de fortune

Agrandir / La perception de la profondeur de la lumière repose sur la trigonométrie et lui permet de mesurer la distance à chaque pixel jusqu’à 1 000 m.

Léger

L’année dernière, j’ai jeté un coup d’œil à un nouveau système de capteur de profondeur appelé Clarity d’une société appelée Light. Développé à l’origine pour les applications pour smartphones, Light a pivoté il y a quelques années pour développer sa technologie pour des applications automobiles telles que les systèmes avancés d’assistance à la conduite (ADAS) et la conduite autonome.

Un long fil de commentaires a suivi, avec de nombreuses questions sur le fonctionnement de la technologie de Light. Les gens de Light ont lu l’intégralité du fil, puis m’ont parlé pour répondre à vos questions.

Les questions du commentateur de l’Ars se répartissaient en quatre thèmes : si la clarté peut ou non fonctionner dans des situations de faible luminosité ; les similitudes avec la vision humaine et la parallaxe ; La précision et la fiabilité de Clarity par rapport à d’autres modalités de capteurs comme le lidar ; et si c’est similaire à l’approche vision-only de Tesla.

Les phares sont obligatoires pour rouler la nuit

En ce qui concerne les performances de Clarity la nuit et dans des situations de faible luminosité, la réponse est assez simple : nous devons conduire avec les phares allumés la nuit. « La plupart des infrastructures pour tout ce qui concerne l’automobile partent du principe qu’il y a un éclairage extérieur, généralement un éclairage sur le véhicule », a déclaré Prashant Velagaleti, directeur des produits chez Light.

De même, il y avait quelques questions sur la façon dont le système de capteurs gère la saleté ou l’occlusion. « L’un des avantages de notre approche est que nous ne pré-spécifions pas les caméras et leurs emplacements. Les clients peuvent décider pour chaque véhicule où ils veulent les placer, et donc, vous savez, beaucoup dans les véhicules de tourisme les mettra derrière le pare-brise », m’a dit Velagaleti. Et bien sûr, si vos caméras sont derrière le pare-brise, il est trivial de garder leur vue dégagée grâce à une technologie qui existe depuis 1903 et qui permet aux conducteurs de véhicules non autonomes de conduire sous la pluie ou la neige et de voir où ils vont.

« Mais lorsque nous parlons d’applications commerciales, comme un camion de classe 8 ou même une navette autonome, ils ont des modules de capteurs, et ces modules de capteurs ont des mécanismes de nettoyage complets, certains qui sont assez sophistiqués. Et c’est exactement le but : garder cette chose opérationnel autant que possible, n’est-ce pas ? Ce n’est pas seulement une question de sécurité, c’est une question de disponibilité. Et donc si vous pouvez ajouter un système de nettoyage qui maintient le véhicule en mouvement sur la route à tout moment et que vous économisez net-net, c’est avantageux. Vous’ J’ai économisé de l’argent », a déclaré Velagaleti.

« Tout le monde suppose que l’état final est le premier état, n’est-ce pas ? Et nous pensons que ceux d’entre nous qui s’attaquent vraiment à cela d’un point de vue pragmatique, c’est ramper, marcher, courir ici. Pourquoi les gens ne devraient-ils pas bénéficier de systèmes de sécurité L2 + avec ce que la clarté lumineuse peut offrir en ajoutant un module de caméra supplémentaire ; tout à coup, votre voiture est beaucoup plus sûre. Nous n’avons pas besoin d’attendre d’avoir atteint les quatre pour que les gens bénéficient de certaines de ces technologies aujourd’hui », m’a dit Velagaleti.

Comment se compare-t-il à Tesla?

« En ce qui concerne Tesla et Mobileye, par exemple, vous savez, ce sont tous deux des systèmes basés sur l’apprentissage automatique. Donc, comme nous aimons le dire, vous devez savoir ce qu’il y a dans le monde avant de savoir où il se trouve. , n’est-ce pas ? Et si vous ne pouvez pas comprendre ce que c’est, vous échouez », a déclaré Dave Grannan, co-fondateur et PDG de Light.

Contrairement à une approche basée sur ML, Clarity ne se soucie pas de savoir si un pixel appartient à une voiture, à la route ou à un arbre – ce type de perception se produit plus loin dans la pile. « Nous regardons simplement les pixels, et si deux caméras peuvent voir le même objet, nous pouvons le mesurer. C’est essentiellement un slogan sans savoir ce qu’est l’objet. Plus tard, en bas de la pile et de la couche de perception, vous voulez ensuite utiliser à la fois le les données d’image et les données de profondeur pour mieux déterminer quel est l’objet et est-il nécessaire que je modifie ma décision », a expliqué Boris Adjoin, directeur principal de la gestion technique des produits chez Light.

Et non, cela ne devrait pas être interprété comme Light disant que ML est une perte de temps. « L’apprentissage automatique est une percée impressionnante. Si vous pouvez alimenter l’apprentissage automatique avec ce type de données de capteur, par image, sans aucune hypothèse, c’est là que de véritables percées commencent à se produire, car vous avez une échelle pour chaque structure dans le monde. Ce n’est pas quelque chose dont tout modèle d’apprentissage automatique actuel sur le terrain bénéficie. Peut-être qu’il est formé sur des données 3D, mais il n’obtient généralement pas beaucoup de données 3D, car comme vous l’avez vu avec les lidars, ils sont précis mais clairsemés, et ils ne voient pas très loin », a noté Velagaleti.

Pendant ce temps, le système de Tesla utilise une seule caméra. « Tesla revendique un milliard de kilomètres de conduite, et ils ont toujours ces erreurs que nous voyons très fréquemment avec la dernière version de FSD. Eh bien, c’est important parce que vous demandez beaucoup trop de ML pour avoir à dériver des choses comme la profondeur et les structures du monde, et c’est juste, c’est un peu le contraire. C’est rétrograde. Et encore une fois, je pense que pour toutes les raisons, c’était très logique pour les gens de mettre sur le marché quelque chose qui fait quelque chose.

« Mais si nous voulons vraiment que le prochain changement se produise, vous pouvez soit croire que peut-être un lidar arrivera sur le marché qui fournira le type de densité que vous voyez ici à un prix que tout le monde peut se permettre, qui est robuste dans les environnements automobiles, c’est manufacturable comme en volume, ou nous pouvons ajouter une autre caméra et ajouter un peu de traitement du signal et le faire rapidement. Nous ne pouvons pas continuer à demander à une seule caméra avec inférence ou structure à partir du mouvement ou une autre technique comme celle-ci pour traiter un problème très complexe Et dans un espace d’application complexe – je veux dire que conduire n’est pas facile ; nous ne laissons pas un enfant de 4 ans conduire « , a déclaré Velagaleti.

« Je pense que Tesla a fait du bon travail en soulignant à quel point leur système de formation est sophistiqué, vous savez, et c’est très impressionnant. Je ne pense pas que nous soyons ici pour critiquer Tesla. Ils en ont fait leur propre puce, qui est en et en soi, l’avoir fait auparavant, ce n’est pas trivial. Il y a donc beaucoup de choses très impressionnantes dans l’approche de Tesla. Je pense que les gens supposent alors malheureusement qu’une Tesla fait certaines choses que Tesla ne dit pas, donc Tesla ne fait pas stéréo », a expliqué Velagaleti.

Qu’en est-il de la vision stéréo EyeSight de Subaru ?

Grannan a souligné que les principes de la vision stéréo étaient bien compris depuis assez longtemps. Il a admis que Light n’avait pas fait un aussi bon travail qu’il aurait pu en expliquant en quoi son système diffère de l’ADAS à caméra EyeSight de Subaru, qui utilise une paire de caméras montées dans une unité qui vit derrière le rétroviseur en haut. du pare-brise.

« Vraiment, ce que nous avons résolu se résume à deux choses. La capacité de gérer ces larges lignes de base de caméras éloignées parce que lorsque vos caméras sont éloignées, vous pouvez voir plus loin, c’est juste de la physique. Dans Subaru EyeSight, ils doivent garder les caméras se rapprochent parce qu’ils n’ont pas compris comment les garder calibrés. Cela devient un problème très difficile quand ils sont éloignés et pas sur le même morceau de métal. C’est un. L’autre chose que nous avons faite est, la plupart des systèmes stéréo sont très bons pour la détection des contours, voir la silhouette de la voiture de la personne du vélo, puis supposer simplement que la profondeur est la même partout, n’est-ce pas ? C’est ce qu’on appelle la régularisation ou le remplissage. Nous avons développé des algorithmes de traitement du signal qui nous permettent d’obtenir de la profondeur pour chaque pixel du cadre. C’est maintenant beaucoup plus riche en détails », a expliqué Grannan.

« Je pense que nous sommes vraiment la première implémentation robuste en stéréo », a déclaré Velagaleti. « Ce que vous trouverez dans tous les domaines, Continental, Hitachi – je ne vais pas être trop précis sur la technologie de n’importe quel fournisseur – vous verrez que, là, ils ne séparent leurs caméras que d’environ 40 centimètres. Et la raison pour laquelle ils le font est c’est à peu près la taille d’un tableau qu’ils peuvent supporter. Ils doivent le construire de manière très rigide pour que cela fonctionne », a expliqué Velagaleti.

« Et si vous y réfléchissez, le problème devient exponentiellement plus difficile lorsque vous vous éloignez, comme l’a dit Dave, car quelle est la taille d’un pixel et d’un module de caméra aujourd’hui ? C’est environ trois microns. C’est très petit, non ? Maintenant, nous ‘vois des objets très éloignés. Ainsi, si vous éloignez les caméras, vous essayez de voir avec précision quelque chose de très loin, ce qui compte dans la plupart des applications. Mais maintenant, si vous vous écartez de quelques pixels, ce qui signifie vous vous trompez de quelques microns, vous n’obtiendrez pas une profondeur précise », a déclaré Velagaleti.

« Donc, ce que Light a résolu, c’est-à-dire la robustesse de la chose, c’est que nous avons pu résoudre pour chaque image, nous avons déterminé où se trouvent réellement les caméras, comment les images sont liées les unes aux autres, puis nous dériver la profondeur de manière très précise. Donc, fondamentalement, nous sommes robustes, n’est-ce pas ? Et c’est ainsi que vous pouvez littéralement mettre deux caméras indépendantes sans rien de rigide entre elles. Et nous travaillons toujours à un niveau inférieur au pixel, ce qui signifie que nous sommes submicronique en ce qui concerne la façon dont nous déterminons où en sont les choses dans le monde. Et cela n’a jamais été fait auparavant », a poursuivi Velagaleti.

Ce processus d’étalonnage est apparemment simple à effectuer en usine, mais les détails exacts de la façon dont Light le fait sont un secret commercial. « Mais en étant capable de résoudre notre étalonnage, cela nous donne de la robustesse et cela nous donne de la flexibilité. C’est ainsi que je peux vous dire pour tout client qui vient chez nous, OEM ou Tier One [supplier], ils décident où ils veulent placer leurs caméras ou combien de caméras ils veulent mettre et quel type de caméras ils veulent utiliser. C’est parce que nous résolvons pour l’étalonnage », a déclaré Velagaleti.

« L’autre élément clé que je veux souligner est très différent des autres – nous ne faisons pas d’hypothèses. Donc, ce que Dave a dit à propos de la détection des contours et du remplissage, à droite, la plupart des systèmes stéréo aujourd’hui, ils mesurent une certaine partie de ce qu’ils voient Parce qu’ils ne peuvent pas faire ce que nous sommes capables de faire, c’est-à-dire mesurer chaque pixel que nous obtenons et en déduire la profondeur », m’a dit Velagaleti.

Source-147