vendredi, décembre 27, 2024

Une nouvelle astuce permet à l’intelligence artificielle de voir en 3D

La vague actuelle de l’intelligence artificielle remonte à 2012 et à un concours universitaire qui mesurait dans quelle mesure les algorithmes pouvaient reconnaître des objets sur des photographies.

Cette année-là, les chercheurs ont découvert que l’introduction de milliers d’images dans un algorithme vaguement inspiré de la façon dont les neurones d’un cerveau réagissent aux entrées produisait un énorme bond en avant dans la précision. Cette percée a déclenché une explosion de la recherche universitaire et de l’activité commerciale qui transforme certaines entreprises et industries.

Maintenant, une nouvelle astuce, qui consiste à former le même type d’algorithme d’IA pour transformer des images 2D en une vue 3D riche d’une scène, suscite l’enthousiasme dans les mondes de l’infographie et de l’IA. La technique a le potentiel de bousculer les jeux vidéo, la réalité virtuelle, la robotique et la conduite autonome. Certains experts pensent que cela pourrait même aider les machines à percevoir et à raisonner sur le monde d’une manière plus intelligente, ou du moins humaine.

« C’est ultra-chaud, il y a un énorme buzz », explique Ken Goldberg, roboticien à l’Université de Californie à Berkeley, qui utilise la technologie pour améliorer la capacité des robots améliorés par l’IA à saisir des formes inconnues. Goldberg dit que la technologie a « des centaines d’applications », dans des domaines allant du divertissement à l’architecture.

La nouvelle approche consiste à utiliser un réseau neuronal pour capturer et générer des images 3D à partir de quelques instantanés 2D, une technique appelée «rendu neuronal». Il est né de la fusion d’idées circulant dans l’infographie et l’IA, mais l’intérêt a explosé en avril 2020 lorsque des chercheurs de l’UC Berkeley et de Google ont montré qu’un réseau de neurones pouvait capturer une scène de manière photoréaliste en 3D simplement en visualisant plusieurs images 2D de celle-ci.

Cet algorithme exploite la façon dont la lumière se déplace dans l’air et effectue des calculs qui calculent la densité et la couleur des points dans l’espace 3D. Cela permet de convertir des images 2D en une représentation 3D photoréaliste qui peut être visualisée de n’importe quel point possible. Son cœur est le même type de réseau de neurones que l’algorithme de reconnaissance d’image de 2012, qui analyse les pixels d’une image 2D. Les nouveaux algorithmes convertissent les pixels 2D en équivalent 3D, appelés voxels. Les vidéos de l’astuce, que les chercheurs ont appelées Neural Radiance Fields, ou NeRF, ont séduit la communauté des chercheurs.

« Je fais de la vision par ordinateur depuis 20 ans, mais quand j’ai vu cette vidéo, je me suis dit ‘Wow, c’est tout simplement incroyable' », déclare Frank Dellaert, professeur à Georgia Tech.

Pour tous ceux qui travaillent sur l’infographie, explique Dellaert, l’approche est une percée. La création d’une scène 3D détaillée et réaliste nécessite normalement des heures de travail manuel minutieux. La nouvelle méthode permet de générer ces scènes à partir de photographies ordinaires en quelques minutes. Il offre également une nouvelle façon de créer et de manipuler des scènes synthétiques. « C’est séminal et important, ce qui est quelque chose de fou à dire pour un travail qui n’a que deux ans », dit-il.

Dellaert dit que la vitesse et la variété des idées qui ont émergé depuis lors ont été à couper le souffle. D’autres ont utilisé l’idée pour créer des selfies mobiles (ou « nerfies »), qui vous permettent de faire un panoramique autour de la tête d’une personne en fonction de quelques images fixes ; pour créer des avatars 3D à partir d’un seul headshot ; et de développer un moyen de rallumer automatiquement les scènes différemment.

Le travail a gagné du terrain dans l’industrie à une vitesse surprenante. Ben Mildenhall, l’un des chercheurs derrière NeRF qui est maintenant chez Google, décrit l’épanouissement de la recherche et du développement comme « un raz-de-marée lent ».

Source-144

- Advertisement -

Latest