Les dernières IA auditives de Meta promettent une expérience AR/VR plus immersive

Je Metaverse, comme l’envisage Mark Zuckerberg, PDG de Meta, sera une expérience virtuelle totalement immersive qui rivalise avec la réalité, du moins à partir de la taille. Mais les visuels ne sont qu’une partie de l’expérience globale de Metaverse.

« Obtenir un son spatial correct est essentiel pour offrir un sentiment réaliste de présence dans le métaverse », a écrit Zuckerberg dans un article de blog vendredi. « Si vous assistez à un concert ou que vous discutez simplement avec des amis autour d’une table virtuelle, une idée réaliste de la provenance du son vous donne l’impression d’être réellement là. »

Ce concert, note le blog, sonnera très différemment s’il est joué dans une salle de concert grandeur nature que dans un auditorium de collège en raison des différences entre leurs espaces physiques et acoustiques. En tant que tel, Meta’s AI and Reality Lab (MAIR, anciennement FAIR) collabore avec des chercheurs de l’UT Austin pour développer un trio de «tâches de compréhension» audio open source qui aideront les développeurs à créer des expériences AR et VR plus immersives avec un son plus réaliste.

Le premier est le modèle Visual Acoustic Matching de MAIR, qui peut adapter un échantillon de clip audio à n’importe quel environnement en utilisant simplement une image de l’espace. Vous voulez entendre à quoi ressemblerait le NY Philharmonic dans la Boom Boom Room de San Francisco ? Maintenant vous pouvez. Les modèles de simulation précédents étaient capables de recréer l’acoustique d’une pièce en fonction de sa disposition, mais uniquement si la géométrie précise et les propriétés des matériaux étaient déjà connues – ou à partir d’audio échantillonné dans l’espace, aucun des deux n’ayant produit de résultats particulièrement précis.

La solution de MAIR est le modèle Visual Acoustic Matching, appelé AViTAR, qui « apprend la correspondance acoustique à partir de vidéos Web dans la nature, malgré leur manque d’audio acoustiquement incompatible et de données non étiquetées », selon le post.

« Un futur cas d’utilisation qui nous intéresse consiste à revivre des souvenirs passés », a écrit Zuckerberg, pariant sur la nostalgie. « Imaginez pouvoir mettre une paire de lunettes AR et voir un objet avec la possibilité de jouer un souvenir qui lui est associé, comme ramasser un tutu et voir un hologramme du récital de ballet de votre enfant. L’audio élimine la réverbération et rend le souvenir semblable au moment où vous l’avez vécu, assis à votre place exacte dans le public.

Le mode de déréverbération visuellement informé (VIDA) de MAIR, d’autre part, supprimera l’effet d’écho de jouer d’un instrument dans un grand espace ouvert comme une station de métro ou une cathédrale. Vous n’entendrez que le violon, pas sa réverbération rebondissant sur des surfaces éloignées. Plus précisément, il « apprend à supprimer la réverbération en fonction des sons observés et du flux visuel, ce qui révèle des indices sur la géométrie de la pièce, les matériaux et l’emplacement des haut-parleurs », explique le message. Cette technologie pourrait être utilisée pour isoler plus efficacement les commandes vocales et vocales, les rendant plus faciles à comprendre pour les humains et les machines.

VisualVoice fait la même chose que VIDA mais pour les voix. Il utilise à la fois des signaux visuels et audio pour apprendre à séparer les voix des bruits de fond lors de ses sessions de formation auto-supervisées. Meta prévoit que ce modèle obtiendra beaucoup de travail dans les applications de compréhension de la machine et pour améliorer l’accessibilité. Pensez, des sous-titres plus précis, Siri comprenant votre demande même lorsque la pièce n’est pas complètement silencieuse ou que l’acoustique d’une salle de chat virtuelle change lorsque les personnes qui parlent se déplacent dans la salle numérique. Encore une fois, ignorez simplement le manque de jambes.

«Nous envisageons un avenir où les gens peuvent mettre des lunettes AR et revivre une mémoire holographique qui ressemble et sonne exactement comme ils l’ont vécu de leur point de vue, ou se sentent immergés non seulement par les graphismes mais aussi par les sons lorsqu’ils jouent à des jeux dans un monde virtuel », a écrit Zuckerberg, notant qu’AViTAR et VIDA ne peuvent appliquer leurs tâches qu’à la seule image pour laquelle ils ont été formés et auront besoin de beaucoup plus de développement avant la diffusion publique. « Ces modèles nous rapprochent encore plus des expériences immersives multimodales que nous voulons construire à l’avenir. »

Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation.

Source-145