2025 - La technologie texte-vidéo de Nvidia pourrait faire passer votre jeu GIF au niveau supérieur

Maintenant que ChatGPT et Midjourney sont à peu près courants, la prochaine grande course de l’IA est celle des générateurs de texte en vidéo – et Nvidia vient de montrer des démos impressionnantes de la technologie qui pourraient bientôt amener vos GIF à un nouveau niveau.

Un nouveau document de recherche et un microsite (s’ouvre dans un nouvel onglet) du Toronto AI Lab de Nvidia, intitulé « High-Resolution Video Synthesis with Latent Diffusion Models », nous donne un avant-goût des incroyables outils de création vidéo qui sont sur le point de rejoindre la liste toujours croissante des meilleurs générateurs d’art IA.

Les modèles de diffusion latente (ou LDM) sont un type d’IA qui peut générer des vidéos sans avoir besoin d’une puissance de calcul massive. Nvidia dit que sa technologie le fait en s’appuyant sur le travail des générateurs de texte en image, dans ce cas Stable Diffusion, et en ajoutant une « dimension temporelle au modèle de diffusion spatiale latente ».

(Crédit image : Nvidia)

En d’autres termes, son IA générative peut faire bouger des images fixes de manière réaliste et les mettre à l’échelle en utilisant des techniques de super-résolution. Cela signifie qu’il peut produire des vidéos courtes de 4,7 secondes avec une résolution de 1280×2048, ou des vidéos plus longues à la résolution inférieure de 512×1024 pour les vidéos de conduite.

Notre pensée immédiate en voyant les premières démos (comme celles ci-dessus et ci-dessous) est de savoir à quel point cela pourrait booster notre jeu GIF. D’accord, il y a des ramifications plus importantes, comme la démocratisation de la création vidéo et la perspective d’adaptations de films automatisées, mais à ce stade, le texte en GIF semble être le cas d’utilisation le plus excitant.

Un ours en peluche jouant de la guitare électrique — (Crédit image : Nvidia)

Des invites simples comme « un soldat de la tempête passe l’aspirateur sur la plage » et « un ours en peluche joue de la guitare électrique, haute définition, 4K » produisent des résultats assez utilisables, même s’il y a naturellement des artefacts et du morphing avec certaines des créations.

À l’heure actuelle, cela rend la technologie texte-vidéo comme les nouvelles démos de Nvidia les plus adaptées aux vignettes et aux GIF. Mais, compte tenu des améliorations rapides observées dans la génération AI de Nvidia pour des scènes plus longues (s’ouvre dans un nouvel onglet)nous n’aurons probablement pas à attendre des clips texte-vidéo plus longs dans les bibliothèques de stock et au-delà.

Analyse : la prochaine frontière de l’IA générative

Le soleil perce à travers la fenêtre d'un loft new-yorkais

(Crédit image : Piste)

Nvidia n’est pas la première entreprise à présenter un générateur de texte en vidéo AI. Nous avons récemment vu Google Phenaki (s’ouvre dans un nouvel onglet) fait ses débuts, révélant son potentiel pour des clips de 20 secondes basés sur des invites plus longues. Ses démos montrent également un clip quoique plus filant qui dure plus de deux minutes.

La startup Runway, qui a aidé à créer le générateur de texte en image Stable Diffusion, a également dévoilé son modèle vidéo Gen-2 AI (s’ouvre dans un nouvel onglet) le mois dernier. En plus de répondre à des invites telles que « le soleil de fin d’après-midi furtivement par la fenêtre d’un loft de New York » (dont le résultat est ci-dessus), il vous permet de fournir une image fixe sur laquelle baser la vidéo générée et vous permet de demander des styles à appliqué à ses vidéos, aussi.

Ce dernier était également un thème des récentes démos d’Adobe Firefly, qui ont montré à quel point l’IA faciliterait le montage vidéo. Dans des programmes comme Adobe Premiere Rush, vous pourrez bientôt saisir l’heure de la journée ou la saison que vous souhaitez voir dans votre vidéo et l’IA d’Adobe fera le reste.

Les démos récentes de Nvidia, Google et Runway montrent que la génération de texte intégral en vidéo est dans un état légèrement plus nébuleux, créant souvent des résultats étranges, rêveurs ou déformés. Mais, pour l’instant, cela conviendra parfaitement à notre jeu GIF – et des améliorations rapides qui rendront la technologie adaptée aux vidéos plus longues sont sûrement à nos portes.

Source-130

La technologie texte-vidéo de Nvidia pourrait faire passer votre jeu GIF au niveau supérieur

Latest

Destiny 2 Rite des Neuf : Guide complet sur son fonctionnement, loot et rotations

Lisa Vanderpump et Kyle Richards : une réconciliation en vue après des regrets passés ?

Bill Maher transformé par son dîner avec Donald Trump, Kid Rock exprime son enthousiasme : ‘C’était parfait’

Leonardo DiCaprio incarne un révolutionnaire dépendant dans des extraits captivants de ‘Une bataille après l’autre’ de PTA à CinemaCon

L’initiative de peine de mort de l’administration Trump entraîne des contributions pour Luigi Mangione.

Brendan Lemieux au HC Davos : des opinions divisées après son incident en LNH

Un analyste d’extrême gauche propose de considérer toutes les lois antérieures à 1965 comme potentiellement inconstitutionnelles dans le cadre du débat sur l’apartheid

Jouez gratuitement pendant 24 heures à Black Ops 6 avant Verdansk