OpenAI lance Point-E, qui est comme DALL-E mais pour la modélisation 3D

OpenAI, la startup d’intelligence artificielle fondée par Elon Musk à l’origine du populaire générateur de texte en image DALL-E, a annoncé mardi la sortie de sa toute nouvelle machine de création d’images POINT-E, qui peut produire des nuages ​​de points 3D directement à partir d’invites de texte. Alors que les systèmes existants comme DreamFusion de Google nécessitent généralement plusieurs heures – et des GPU – pour générer leurs images, Point-E n’a besoin que d’un GPU et d’une minute ou deux.

OpenAI

La modélisation 3D est utilisée dans une variété d’industries et d’applications. Les effets CGI des superproductions cinématographiques modernes, des jeux vidéo, de la réalité virtuelle et de la réalité augmentée, des missions de cartographie des cratères lunaires de la NASA, des projets de préservation des sites patrimoniaux de Google et de la vision de Meta pour le Metaverse reposent tous sur les capacités de modélisation 3D. Cependant, la création d’images 3D photoréalistes est toujours un processus qui prend beaucoup de temps et de ressources, malgré le travail de NVIDIA pour automatiser la génération d’objets et l’application mobile RealityCapture d’Epic Game, qui permet à toute personne possédant un téléphone iOS de numériser des objets du monde réel sous forme d’images 3D.

Les systèmes de synthèse d’images tels que DALL-E 2 et Craiyon d’OpenAI, DeepAI, Lensa de Prisma Lab ou Stable Diffusion de HuggingFace ont rapidement gagné en popularité, en notoriété et en infamie ces dernières années. Text-to-3D est une émanation de cette recherche. Point-E, contrairement à des systèmes similaires, « exploite un grand corpus de paires (texte, image), lui permettant de suivre des invites diverses et complexes, tandis que notre modèle image-3D est formé sur un ensemble de données plus petit de (image, 3D) paires », a écrit l’équipe de recherche OpenAI dirigée par Alex Nichol dans Point·E : A System for Generating 3D Point Clouds from Complex Prompts, publié la semaine dernière. « Pour produire un objet 3D à partir d’une invite de texte, nous échantillonnons d’abord une image à l’aide du modèle texte-image, puis échantillonnons un objet 3D conditionné sur l’image échantillonnée. Ces deux étapes peuvent être effectuées en quelques secondes, et ne nécessitent pas de procédures d’optimisation coûteuses. »

Point-E

OpenAI

Si vous deviez saisir une invite de texte, par exemple « Un chat mangeant un burrito », Point-E générera d’abord un rendu 3D de vue synthétique dudit chat mangeur de burrito. Il exécutera ensuite cette image générée à travers une série de modèles de diffusion pour créer le nuage de points 3D RVB de l’image initiale – produisant d’abord un modèle de nuage grossier de 1 024 points, puis un modèle plus fin de 4 096 points. « En pratique, nous supposons que l’image contient les informations pertinentes du texte et ne conditionnons pas explicitement les nuages ​​de points sur le texte », souligne l’équipe de recherche.

Ces modèles de diffusion ont chacun été entraînés sur des « millions » de modèles 3D, tous convertis dans un format standardisé. « Bien que notre méthode donne de moins bons résultats sur cette évaluation que les techniques de pointe », concède l’équipe, « elle produit des échantillons en une petite fraction du temps ». Si vous souhaitez l’essayer par vous-même, OpenAI a publié le code open source du projet sur Github.

Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation. Tous les prix sont corrects au moment de la publication.

Source-145