Les chercheurs de Nvidia ont développé une approche pour reconstruire une scène 3D à partir d’une poignée d’images 2D « presque instantanément ». Un nouveau billet de blog décrit l’exploit, qui exploite une nouvelle technologie populaire appelée Neural Radiance Fields (NeRF), qui est accélérée jusqu’à 1 000 fois par rapport aux implémentations concurrentes. La vitesse de traitement de Nvidia est en grande partie due à son accélération de l’IA tirant parti des Tensor Cores qui accélèrent à la fois la formation des modèles et le rendu des scènes. Si vous êtes intéressé mais que vous souhaitez un TLDR, jetez un coup d’œil à la courte vidéo intégrée directement ci-dessous.
Fournissant un contexte à sa démo, Nvidia dit que les techniques NeRF précédentes pouvaient prendre des heures pour s’entraîner pour une scène, puis quelques minutes pour rendre les scènes cibles. Bien que les résultats des précédentes implémentations plus lentes aient été bons, les chercheurs de Nvidia tirant parti de la technologie AI ont mis une fusée dans les performances, et donc Nvidia a la confiance nécessaire pour décrire sa technologie comme « Instant NeRF ».
Vous l’avez probablement déjà deviné, mais cette technologie NeRF utilise des réseaux de neurones pour représenter et restituer des scènes 3D réalistes basées sur une collection d’images 2D. La vidéo ci-dessus implique que seulement quatre clichés étaient nécessaires pour créer la représentation 3D que nous voyons en mouvement. Cependant, le blog pourrait être plus réaliste en expliquant que « le réseau de neurones nécessite quelques dizaines d’images prises à partir de plusieurs positions autour de la scène, ainsi que la position de la caméra de chacune de ces prises de vue ». Le réseau neuronal comble les vides de la scène à 360 degrés et peut prédire la couleur de la lumière rayonnant dans n’importe quelle direction, à partir de n’importe quel point de l’espace 3D pour plus de réalisme. Nvidia dit que la technique peut contourner les occlusions.
Avec Instant NeRF, Nvidia facilite le rendu d’une scène 3D complète comme décrit ci-dessus en quelques dizaines de millisecondes. C’est impressionnant, mais à quoi cela pourrait-il servir ? David Luebke, vice-président de la recherche graphique chez Nvidia, fonde de grands espoirs sur cette technologie. « Si les représentations 3D traditionnelles comme les maillages polygonaux s’apparentent à des images vectorielles, les NeRF sont comme des images bitmap : elles capturent de manière dense la façon dont la lumière rayonne d’un objet ou dans une scène », a déclaré Luebke. « En ce sens, Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l’ont été pour la photographie 2D, augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D. »
D’autres utilisations prévues pour la technologie Instant NeRF incluent l’aide aux robots et aux véhicules autonomes pour comprendre la taille et la forme d’objets du monde réel à partir de données incomplètes. Le NeRF instantané peut également être utile lorsque la vitesse est essentielle pour la conception ou même l’architecture d’un environnement virtuel. Cela intéressera également sûrement les développeurs de jeux et de VR / métaverse.
Si vous souhaitez en savoir plus sur Instant NeRF, la recherche Nvidia a publié un article intitulé Instant Neural Graphics Primitives with a Multiresolution Hash Encoding. Enfin, vous pouvez également télécharger, former et exécuter le code de démonstration, disponible via ce même lien GitHub.