Meta et un groupe de chercheurs de l’Université du Texas à Austin (UT Austin) travaillent à apporter un son réaliste au métaverse.
Comme Kristen Garuman, directrice de recherche chez Meta AI, explique (s’ouvre dans un nouvel onglet), il y a plus dans la réalité augmentée et virtuelle (AR et VR, respectivement) que de simples visuels. L’audio joue un rôle très important pour rendre un monde vivant. Garuman dit que « l’audio est façonné par l’environnement qui [it’s] dans. » Il existe divers facteurs qui influencent le comportement du son comme la géométrie d’une pièce, ce qu’il y a dans ladite pièce et la distance qui sépare une personne d’une source.
Pour y parvenir, le plan de Meta est d’utiliser des lunettes AR pour enregistrer à la fois l’audio et la vidéo à partir d’un seul endroit, puis d’utiliser un ensemble de trois modèles d’IA, de transformer et de nettoyer l’enregistrement pour donner l’impression que cela se passe devant vous lorsque vous le lisez. à la maison. Les IA prendront en compte la pièce dans laquelle vous vous trouvez afin qu’elle puisse correspondre à l’environnement.
En regardant les projets, il semble que Meta se concentre sur les lunettes AR. Le plan de Meta pour les casques VR comprend la reproduction des images et des sons d’un environnement, comme un concert, de sorte que vous ayez l’impression d’être là en personne.
Nous avons demandé à Meta comment les gens peuvent écouter l’audio amélioré. Les gens auront-ils besoin d’une paire d’écouteurs pour écouter ou cela viendra-t-il du casque ? Nous n’avons pas reçu de réponse.
Nous avons également demandé à Meta comment les développeurs peuvent mettre la main sur ces modèles d’IA. Ils ont été rendus open source afin que les développeurs tiers puissent travailler sur la technologie, mais Meta n’a pas fourni plus de détails.
Transformé par l’IA
La question est de savoir comment Meta peut enregistrer de l’audio sur une paire de lunettes AR et le faire refléter un nouveau paramètre.
La première solution est connue sous le nom d’AViTAR qui est un « Modèle de correspondance acoustique visuelle. » (s’ouvre dans un nouvel onglet) C’est l’IA qui transforme l’audio pour correspondre à un nouvel environnement. Meta donne l’exemple d’une mère enregistrant le récital de danse de son enfant dans un auditorium avec une paire de lunettes AR.
L’un des chercheurs affirme que la mère en question peut prendre cet enregistrement et le lire à la maison où l’IA transformera l’audio. Il analysera l’environnement, prendra en compte tous les obstacles dans une pièce et fera sonner le récital comme si cela se passait juste devant elle avec les mêmes lunettes. Le chercheur déclare que le son proviendra des lunettes.
Pour aider à nettoyer l’audio, il y a Déréverbération visuellement informée (s’ouvre dans un nouvel onglet). Fondamentalement, il supprime la réverbération gênante du clip. L’exemple donné est d’enregistrer un concert de violon dans une gare, de le ramener à la maison et de faire nettoyer le clip par l’IA pour que vous n’entendiez que de la musique.
Le dernier modèle d’IA est VisualVoice (s’ouvre dans un nouvel onglet), qui utilise une combinaison d’indices visuels et audio pour séparer les voix des autres bruits. Imaginez que vous enregistrez une vidéo de deux personnes qui se disputent. Cette IA isolera une voix afin que vous puissiez la comprendre tout en faisant taire tout le reste. Meta explique que les repères visuels sont importants car l’IA a besoin de voir qui parle pour comprendre certaines nuances et savoir qui parle.
En ce qui concerne les visuels, Meta déclare qu’ils prévoient d’apporter de la vidéo et d’autres indices pour améliorer encore l’audio piloté par l’IA. Étant donné que cette technologie est encore au début du développement, on ne sait pas si et quand Meta apportera ces IA à un casque Quest près de chez vous.
Assurez-vous de lire notre dernière critique sur le Oculus Quête 2 si vous envisagez d’en acheter un. Alerte spoiler : on aime ça.