Des chercheurs de l’Université Carnegie Mellon ont testé un système qui utilise des signaux Wi-Fi pour déterminer la position et la pose des humains dans une pièce. Lors des tests, des routeurs Wi-Fi ordinaires, en particulier des appareils TP-Link Archer A7 AC1750, ont été positionnés à chaque extrémité de la pièce, ainsi qu’un nombre variable de personnes dans la pièce. Des algorithmes alimentés par l’IA ont analysé les interférences du signal Wi-Fi générées par les personnes.
Les images filaires générées à partir de la surveillance Wi-Fi semblaient assez précises dans la plupart des cas, les chercheurs affirmant que les estimations sont aussi bonnes que certaines «approches basées sur l’image». L’utilisation du Wi-Fi sur les caméras présente également des avantages et des attraits. Premièrement, les estimations filaires de la pose humaine sont plus respectueuses de la vie privée humaine. Deuxièmement, la perception basée sur le Wi-Fi ne nécessite pas de lumière et est capable de détecter les poses du corps même lorsqu’il y a des objets sur le chemin qui obscurciraient une vue de caméra traditionnelle. Une autre attraction majeure de cette découverte est que les routeurs Wi-Fi utilisés étaient bon marché à seulement 30 $ chacun, et donc beaucoup plus accessibles que les solutions coûteuses et gourmandes en énergie telles que le radar et le LiDAR.
Ci-dessus, vous pouvez voir un ensemble d’images synchronisées, avec les images fixes vidéo sur la gauche et les images filaires détectées par Wi-Fi générées par l’IA sur la droite. La détection du nombre de personnes, de lieux et de poses semble très précise. L’article publié par les chercheurs de Carnegie Mellon fournit des informations détaillées sur la façon dont cela est fait. En bref, la technologie de perception basée sur le Wi-Fi présentée ici est basée sur les informations d’état du canal du signal Wi-Fi (CSI), qui représentent le rapport entre l’onde de signal transmise et l’onde de signal reçue. Ces données sont traitées à l’aide d’une architecture de réseau neuronal avisée en vision par ordinateur qui peut effectuer une estimation de pose dense. Pour simplifier et ainsi accélérer la génération des représentations humaines de style filaire, les chercheurs ont divisé la forme humaine en 24 segments.
Les chercheurs admettent que la méthode décrite ci-dessus de détection des humains et de leur positionnement / pose n’est pas sans problèmes, et ils voient encore des erreurs évidentes dans les scénarios de test. Ils ont gracieusement fourni des images de comparaison qui montrent des « cas d’échec », qu’ils attribuent à des problèmes tels que des humains faisant des poses inhabituelles et la présence simultanée de trop de sujets dans la pièce (le moteur prend en charge de manière optimale trois personnes ou moins).
Il reste encore beaucoup de travail à faire, les chercheurs suggérant que la technique décrite pourrait être améliorée de plusieurs façons, mais principalement à partir de meilleures données de formation publiques pour la perception basée sur le Wi-Fi, en particulier dans différentes configurations de pièce. Bien que présenté comme un moyen sensible à la confidentialité de surveiller la sécurité des personnes âgées vivant seules, et étant une solution très abordable à cette fin, certains seront sans aucun doute préoccupés par la nouvelle menace de leur routeur Wi-Fi qui les espionne.