Maintenant que ChatGPT et Midjourney sont à peu près courants, la prochaine grande course de l’IA est celle des générateurs de texte en vidéo – et Nvidia vient de montrer des démos impressionnantes de la technologie qui pourraient bientôt amener vos GIF à un nouveau niveau.
Un nouveau document de recherche et un microsite (s’ouvre dans un nouvel onglet) du Toronto AI Lab de Nvidia, intitulé « High-Resolution Video Synthesis with Latent Diffusion Models », nous donne un avant-goût des incroyables outils de création vidéo qui sont sur le point de rejoindre la liste toujours croissante des meilleurs générateurs d’art IA.
Les modèles de diffusion latente (ou LDM) sont un type d’IA qui peut générer des vidéos sans avoir besoin d’une puissance de calcul massive. Nvidia dit que sa technologie le fait en s’appuyant sur le travail des générateurs de texte en image, dans ce cas Stable Diffusion, et en ajoutant une « dimension temporelle au modèle de diffusion spatiale latente ».
En d’autres termes, son IA générative peut faire bouger des images fixes de manière réaliste et les mettre à l’échelle en utilisant des techniques de super-résolution. Cela signifie qu’il peut produire des vidéos courtes de 4,7 secondes avec une résolution de 1280×2048, ou des vidéos plus longues à la résolution inférieure de 512×1024 pour les vidéos de conduite.
Notre pensée immédiate en voyant les premières démos (comme celles ci-dessus et ci-dessous) est de savoir à quel point cela pourrait booster notre jeu GIF. D’accord, il y a des ramifications plus importantes, comme la démocratisation de la création vidéo et la perspective d’adaptations de films automatisées, mais à ce stade, le texte en GIF semble être le cas d’utilisation le plus excitant.
Des invites simples comme « un soldat de la tempête passe l’aspirateur sur la plage » et « un ours en peluche joue de la guitare électrique, haute définition, 4K » produisent des résultats assez utilisables, même s’il y a naturellement des artefacts et du morphing avec certaines des créations.
À l’heure actuelle, cela rend la technologie texte-vidéo comme les nouvelles démos de Nvidia les plus adaptées aux vignettes et aux GIF. Mais, compte tenu des améliorations rapides observées dans la génération AI de Nvidia pour des scènes plus longues (s’ouvre dans un nouvel onglet)nous n’aurons probablement pas à attendre des clips texte-vidéo plus longs dans les bibliothèques de stock et au-delà.
Analyse : la prochaine frontière de l’IA générative
Nvidia n’est pas la première entreprise à présenter un générateur de texte en vidéo AI. Nous avons récemment vu Google Phenaki (s’ouvre dans un nouvel onglet) fait ses débuts, révélant son potentiel pour des clips de 20 secondes basés sur des invites plus longues. Ses démos montrent également un clip quoique plus filant qui dure plus de deux minutes.
La startup Runway, qui a aidé à créer le générateur de texte en image Stable Diffusion, a également dévoilé son modèle vidéo Gen-2 AI (s’ouvre dans un nouvel onglet) le mois dernier. En plus de répondre à des invites telles que « le soleil de fin d’après-midi furtivement par la fenêtre d’un loft de New York » (dont le résultat est ci-dessus), il vous permet de fournir une image fixe sur laquelle baser la vidéo générée et vous permet de demander des styles à appliqué à ses vidéos, aussi.
Ce dernier était également un thème des récentes démos d’Adobe Firefly, qui ont montré à quel point l’IA faciliterait le montage vidéo. Dans des programmes comme Adobe Premiere Rush, vous pourrez bientôt saisir l’heure de la journée ou la saison que vous souhaitez voir dans votre vidéo et l’IA d’Adobe fera le reste.
Les démos récentes de Nvidia, Google et Runway montrent que la génération de texte intégral en vidéo est dans un état légèrement plus nébuleux, créant souvent des résultats étranges, rêveurs ou déformés. Mais, pour l’instant, cela conviendra parfaitement à notre jeu GIF – et des améliorations rapides qui rendront la technologie adaptée aux vidéos plus longues sont sûrement à nos portes.