« Dès le premier jour du Surface Hub 2, nous savions que nous allions rendre nos caméras intelligentes », explique Steven Bathiche, qui supervise toutes les innovations matérielles pour les appareils Microsoft, dans une interview avec Le bord. La caméra intelligente surprise Surface Hub 2 de Microsoft à 799,99 $ a fait ses débuts la semaine dernière, offrant un recadrage automatique sans la déformation et les distorsions que vous pourriez généralement voir sur d’autres caméras de salle de conférence.
Il peut détecter les visages et les corps, dans le but de s’assurer que tout le monde dans une pièce est visible pendant les réunions, qu’il soit proche de la caméra ou jusqu’à huit mètres. La caméra intelligente Surface Hub 2 est capable de voir à peu près toute une salle de conférence grâce à son champ de vision de 136 degrés, qui garde les personnes à l’avant au point aux côtés de celles à l’arrière.
Microsoft avait toujours prévu de mettre à niveau sa caméra Surface Hub 2 avant que la pandémie ne mette l’accent sur les réunions hybrides, c’est pourquoi elle est modulaire et peut être détachée du haut des écrans de 55 ou 85 pouces. « Nous savions que nous allions faire évoluer l’expérience. Nous ne savions pas exactement comment, mais nous savions que cela allait changer et devait changer avec les besoins des gens, l’évolution de la salle de conférence et même comment notre culture s’adaptera essentiellement aux réunions », explique Bathiche.
Les grands appareils comme le Surface Hub 2 de 85 pouces présentaient des défis pour capturer tout le monde dans une salle de réunion avec une caméra traditionnelle. « Nous avions besoin d’une caméra pour gérer des pièces plus grandes », explique Bathiche, alors Microsoft s’est mis au travail.
Bathiche et son équipe ont créé l’optique, le modèle d’IA et l’ordinateur de pointe de Microsoft pour entrer dans la caméra intelligente Surface Hub 2 et alimenter sa photographie informatique. « Il a un calcul embarqué, 1 téraflops de calcul qui abrite essentiellement un très grand modèle d’IA que nous avons construit », explique Bathiche. « Il inclut l’application de cadrage automatique, il réside dans l’appareil photo, donc ce qui sort n’est qu’une image 4K, donc il ressemble littéralement à une webcam pour le Surface Hub. »
Cela signifie que tout le travail d’IA est effectué sur la caméra elle-même et n’est jamais envoyé vers le cloud ou même via le fil vers le Surface Hub 2 pour traitement. La caméra exécute le modèle AI, traite toutes les données et prend la décision de recadrer l’image en conséquence. Alors que le cadrage automatique peut capturer automatiquement tout le monde dans une pièce, la caméra intelligente utilisera également la compensation d’inclinaison pour ajuster l’image à la position de la caméra et créer un contact visuel plus naturel à la place. Il est également capable de supprimer l’effet œil de poisson des objectifs grand angle afin que les gens n’aient pas l’air déformés ou étirés à l’intérieur des salles de réunion.
« Nous avons conçu un objectif entièrement en verre à 11 éléments avec une mise au point très nette et essentiellement proche des limites de réfraction », explique Bathiche. Derrière l’objectif se trouve un capteur de 12 mégapixels (4000 x 3000) avec une ouverture f/1.8 qui génère l’image recadrée 4K. « L’objectif réel est un champ de vision de 184 degrés, de sorte que la caméra peut regarder derrière elle-même. »
Cependant, tout ce matériel n’est rien sans les modèles d’IA qui alimentent la Surface Smart Camera. Microsoft a lancé ce projet avant la pandémie, mais il a dû former ses modèles d’IA durant la pandémie, qui a présenté les défis évidents de remplir les salles de réunion de personnes.
« Nous sommes allés en Nouvelle-Zélande parce qu’ils n’avaient aucun cas de COVID-19 et nous avions des bureaux là-bas », explique Bathiche. « Nous avons embauché des acteurs et des actrices pour faire la collecte de données dans toutes sortes de pièces. Notre ensemble de données est absolument énorme.
Microsoft a formé son modèle d’IA sur les visages et les corps pour s’assurer qu’il est entièrement inclusif et détectera les personnes qui ne sont pas toujours face à la caméra. Il a même utilisé des personnes et des visages synthétiques pour améliorer sa diversité à travers les situations et les personnes. « Nous avons une technologie interne vraiment cool qui peut générer des données synthétiques, nous avons donc pu générer des personnes et des visages synthétiques », ajoute Bathiche.
Cependant, la caméra intelligente n’est pas formée pour détecter les animaux de compagnie ou les animaux. Cela devrait donc signifier qu’il n’essaiera pas de recadrer automatiquement une réunion si un chat ou un chien de bureau apparaît. Microsoft a également appliqué son principes de l’IA responsable à ce projet, qui comprend un comité et un ensemble d’outils pour assurer l’équité et l’inclusivité de l’IA.
« Si vous regardez notre ensemble de données, c’est absolument incroyable à tous les niveaux en termes de disparité entre les différents groupes : race, sexe, couleur de peau, styles de cheveux, etc. », explique Bathiche. « Je pense que l’une des choses intégrées à la caméra que les gens pourraient ne pas voir sur la boîte est la robustesse et l’inclusivité du modèle. »
Bathiche dit que Microsoft s’est « assis là et a réglé le diable » sur les capacités de cadrage automatique de sa caméra intelligente au cours de l’année écoulée pour s’assurer qu’elle n’est pas trop nerveuse ou trop lente pour manquer du contenu. « Chaque image que l’appareil photo obtient, il décide s’il vaut la peine de déplacer ou de recadrer l’image. »
Vous vous demandez peut-être si vous pourriez utiliser cet appareil photo à 799,99 $ sur un PC Windows ordinaire, mais ce n’est pas aussi simple. Bien que tous les modèles de calcul et d’IA soient hébergés à l’intérieur de la caméra intelligente Surface Hub 2, elle n’est pas vraiment conçue pour être une webcam ordinaire. « Son point de conception était spécifiquement pour Hub. L’élévation, les angles et l’IA ont été conçus pour plusieurs personnes proches et éloignées », explique Bathiche. « Bien que vous puissiez techniquement concevoir un support et le brancher sur un PC, je ne pense pas que cela fonctionnera aussi bien que vous le souhaitez. »
Ce n’est pas non plus la première fois que Microsoft se concentre sur l’amélioration de ses webcams et caméras. La Surface Pro X dispose déjà d’une fonction de contact visuel alimentée par l’IA qui donne l’impression que vous établissez toujours un contact visuel, peu importe ce que vous regardez pendant un appel vidéo. Apple a ajouté une fonctionnalité similaire de correction de l’attention FaceTime à iOS 13. « Les algorithmes que nous avons utilisés pour le contact visuel [for the Surface Pro X] sont les mêmes algorithmes pour les visages que nous utilisons à l’intérieur de cet appareil photo », explique Bathiche.
Microsoft a clairement conçu cette caméra intelligente pour le Surface Hub 2, mais avec des rumeurs persistantes autour des webcams de marque Surface, il est possible que nous voyions un jour une webcam puissante de Microsoft au lieu de celles abordables qui existent aujourd’hui. « Ce domaine de l’utilisation de l’informatique pour rassembler les gens et leur donner l’impression d’être dans la même pièce… Je pense que c’est quelque chose qui nous passionne depuis toujours et qui continuera à l’être, et nous continuerons à faire évoluer notre appareils comme vous le voyez dans la Surface Pro X », explique Bathiche.