Aussi pratique que de demander à Siri de passer à la piste suivante ou chargez des chansons de votre artiste préféré sans sortir votre téléphone, il y a des moments où interagir verbalement avec des assistants intelligents n’est pas une option. Les chercheurs de l’Université Cornell ont donc développé une caméra intelligente portable qui peut détecter les commandes vocales même lorsque l’utilisateur ne murmure aucun son.
L’intelligence des assistants à commande vocale et leur capacité à comprendre sans effort les commandes vocales continuent de s’améliorer année après année, mais la seule chose pour laquelle ils sont tous très bons depuis le début est la compréhension de commandes simples. L’une des meilleures raisons d’opter pour les écouteurs sans fil d’Apple, Google et Amazon est la facilité d’accès aux assistants intelligents de chaque entreprise grâce à des mots déclencheurs, de sorte que l’expérience est entièrement manuelle.gratuit.
Mais pour les moments où vous ne voulez pas aboyer des commandes à haute voix (comme lorsque vous êtes emballé dans une voiture de métro bondée) ou que vous ne voulez pas que quelqu’un sache que vous demandez à Siri de mettre en file d’attente la liste de lecture des plus grands succès de Céline, le SpeeChin est une alternative intéressante.
Conçu par Cheng Zhang, professeur adjoint de sciences de l’information au Cornell Ann S. Bowers College of Computing and Information Science, et Ruidong Zhang, doctorant à l’Université Cornell, le SpeeChin est un caméra infrarouge compacte accrochée à un collier qui se porte au niveau de la poitrine. La caméra pointe vers le haut, capturant une vidéo à contraste élevé des mouvements du menton du porteur, qui, après un certain entraînement, peut être utilisée pour comprendre ce que quelqu’un dit sans qu’ils fassent de bruit. L’emplacement de la caméra n’est pas seulement plus discret que de monter une caméra sur le visage de quelqu’un pour enregistrer les mouvements de sa bouche, il se trouve également à un angle où les visages d’autres personnes ne peuvent pas être capturés, ce qui évite tout problème de confidentialité.
Les chercheurs ont testé le SpeeChin avec 20 participants ; 10 d’entre eux parlaient 54 phrases simples, y compris des chiffres et des commandes d’assistant vocal courantes en anglais, et 10 parlaient 44 mots et phrases simples en chinois mandarin. Après une période de formation, la caméra de suivi du menton a pu reconnaître les commandes en anglais avec une précision de 90,5 % et les commandes en chinois mandarin avec une précision de 91,6 %. C’était avec les participants prononçant les différentes phrases tout en restant immobiles. Lorsqu’on leur a demandé de dire ces phrases en marchant, la précision a chuté en raison des variations dans les mouvements de chaque personne, y compris leurs démarches et le mouvement supplémentaire de leur tête.
C’est un problème qui pourrait potentiellement être résolu avec une session de formation plus longue qui incluait les participants debout et marchant tout en travaillant dans la bibliothèque de phrases et de commandes, ainsi qu’un équipement de caméra amélioré qui était mieux en mesure de suivre les mouvements du menton grâce à une résolution plus élevée ou plus élevée. fréquences d’images. Espérons que les chercheurs continuent à développer la technologie, car avec des capacités de reconnaissance vocale plus avancées, le monde serait un endroit plus paisible où personne n’aurait à émettre un son.