Elon Musk, en octobre 2021, a tweeté que « les humains conduisent avec des yeux et des réseaux neuronaux biologiques, donc les caméras et les réseaux neuronaux en silicium sont le seul moyen de parvenir à une solution généralisée à la conduite autonome ». Le problème avec sa logique est que les yeux humains sont bien meilleurs que les caméras RVB pour détecter les objets se déplaçant rapidement et estimer les distances. Nos cerveaux ont également largement dépassé tous les réseaux neuronaux artificiels dans le traitement général des entrées visuelles.
Pour combler cette lacune, une équipe de scientifiques de l’Université de Zurich a développé un nouveau système de détection d’objets automobiles qui rapproche les performances des appareils photo numériques de celles de l’œil humain. « Des sources non officielles affirment que Tesla utilise plusieurs caméras Sony IMX490 avec une résolution de 5,4 mégapixels qui [capture] jusqu’à 45 images par seconde, ce qui se traduit par une latence perceptuelle de 22 millisecondes. Comparant [these] Avec nos seules caméras, nous constatons déjà une latence de perception réduite de 100 fois», déclare Daniel Gehrig, chercheur à l’Université de Zurich et auteur principal de l’étude.
Reproduire la vision humaine
Lorsqu’un piéton saute soudainement devant votre voiture, plusieurs choses doivent se produire avant qu’un système d’aide à la conduite déclenche un freinage d’urgence. Premièrement, le piéton doit être capturé dans des images prises par une caméra. Le temps que cela prend est appelé latence perceptuelle : il s’agit d’un délai entre l’existence d’un stimuli visuel et son apparition dans la lecture d’un capteur. Ensuite, la lecture doit parvenir à une unité de traitement, ce qui ajoute une latence réseau d’environ 4 millisecondes.
Le traitement pour classifier l’image d’un piéton prend encore de précieuses millisecondes. Une fois cela fait, la détection est transmise à un algorithme de prise de décision, qui prend un certain temps avant de décider d’appuyer sur les freins. Tout ce traitement est appelé latence de calcul. Dans l’ensemble, le temps de réaction se situe entre 0,1 et une demi-seconde. Si le piéton court à 12 km/h, il parcourra entre 0,3 et 1,7 mètres pendant ce temps. Votre voiture, si vous roulez à 50 km/h, parcourrait entre 1,4 et 6,9 mètres. Lors d’une rencontre à courte portée, cela signifie que vous les toucherez très probablement.
Gehrig et Davide Scaramuzza, professeur à l’Université de Zurich et co-auteur de l’étude, visaient à raccourcir ces temps de réaction en réduisant les latences de perception et de calcul.
Le moyen le plus simple de réduire le premier était d’utiliser des caméras haute vitesse standard qui enregistrent simplement plus d’images par seconde. Mais même avec une caméra de 30 à 45 ips, une voiture autonome générerait près de 40 téraoctets de données par heure. Installer quelque chose qui réduirait considérablement la latence de perception, comme une caméra à 5 000 ips, submergerait l’ordinateur de bord d’une voiture en un instant : la latence de calcul exploserait.
Ainsi, l’équipe suisse a utilisé ce qu’on appelle une « caméra événementielle », qui imite le fonctionnement des yeux biologiques. « Par rapport à une caméra vidéo basée sur des images, qui enregistre des images denses à une fréquence fixe (images par seconde), les caméras événementielles contiennent des pixels intelligents indépendants qui mesurent uniquement les changements de luminosité », explique Gehrig. Chacun de ces pixels commence par un niveau de luminosité défini. Lorsque le changement de luminosité dépasse un certain seuil, le pixel enregistre un événement et définit un nouveau niveau de luminosité de base. Tous les pixels de la caméra événementielle le font en continu, chaque événement enregistré se manifestant sous la forme d’un point dans une image.
Cela rend les caméras événementielles particulièrement efficaces pour détecter les mouvements à grande vitesse et leur permet de le faire en utilisant beaucoup moins de données. Le problème en les plaçant dans des voitures était qu’ils avaient du mal à détecter les objets qui bougeaient lentement ou ne bougeaient pas du tout par rapport à la caméra. Pour résoudre ce problème, Gehrig et Scaramuzza ont opté pour un système hybride, dans lequel une caméra événementielle était combinée avec une caméra traditionnelle.