lundi, décembre 23, 2024

La technologie texte-vidéo de Nvidia pourrait faire passer votre jeu GIF au niveau supérieur

Maintenant que ChatGPT et Midjourney sont à peu près courants, la prochaine grande course de l’IA est celle des générateurs de texte en vidéo – et Nvidia vient de montrer des démos impressionnantes de la technologie qui pourraient bientôt amener vos GIF à un nouveau niveau.

Un nouveau document de recherche et un microsite (s’ouvre dans un nouvel onglet) du Toronto AI Lab de Nvidia, intitulé « High-Resolution Video Synthesis with Latent Diffusion Models », nous donne un avant-goût des incroyables outils de création vidéo qui sont sur le point de rejoindre la liste toujours croissante des meilleurs générateurs d’art IA.

Les modèles de diffusion latente (ou LDM) sont un type d’IA qui peut générer des vidéos sans avoir besoin d’une puissance de calcul massive. Nvidia dit que sa technologie le fait en s’appuyant sur le travail des générateurs de texte en image, dans ce cas Stable Diffusion, et en ajoutant une « dimension temporelle au modèle de diffusion spatiale latente ».

(Crédit image : Nvidia)

En d’autres termes, son IA générative peut faire bouger des images fixes de manière réaliste et les mettre à l’échelle en utilisant des techniques de super-résolution. Cela signifie qu’il peut produire des vidéos courtes de 4,7 secondes avec une résolution de 1280×2048, ou des vidéos plus longues à la résolution inférieure de 512×1024 pour les vidéos de conduite.

Notre pensée immédiate en voyant les premières démos (comme celles ci-dessus et ci-dessous) est de savoir à quel point cela pourrait booster notre jeu GIF. D’accord, il y a des ramifications plus importantes, comme la démocratisation de la création vidéo et la perspective d’adaptations de films automatisées, mais à ce stade, le texte en GIF semble être le cas d’utilisation le plus excitant.

Un ours en peluche jouant de la guitare électrique

(Crédit image : Nvidia)

Des invites simples comme « un soldat de la tempête passe l’aspirateur sur la plage » et « un ours en peluche joue de la guitare électrique, haute définition, 4K » produisent des résultats assez utilisables, même s’il y a naturellement des artefacts et du morphing avec certaines des créations.

Source-130

- Advertisement -

Latest