Lundi, Tencent, le géant chinois de l’Internet connu pour son empire du jeu vidéo et son application de chat WeChat, a dévoilé une nouvelle version de son modèle de génération vidéo open source DynamiCrafter sur GitHub. Cela nous rappelle que certaines des plus grandes entreprises technologiques chinoises ont discrètement intensifié leurs efforts pour faire une brèche dans l’espace de conversion de texte et d’image en vidéo.
Comme d’autres outils vidéo génératifs sur le marché, DynamiCrafter utilise la méthode de diffusion pour transformer les sous-titres et les images fixes en vidéos d’une durée de quelques secondes. Inspirés par le phénomène naturel de diffusion en physique, les modèles de diffusion en apprentissage automatique peuvent transformer des données simples en données plus complexes et réalistes, de la même manière que les particules se déplacent d’une zone de forte concentration à une autre de faible concentration.
La deuxième génération de DynamiCrafter produit des vidéos avec une résolution de pixels de 640 × 1024, une mise à niveau par rapport à sa version initiale en octobre qui comportait des vidéos de 320 × 512. Un article universitaire publié par l’équipe derrière DynamiCrafter note que sa technologie diffère de celle de ses concurrents en ce sens qu’elle élargit l’applicabilité des techniques d’animation d’images à un « contenu visuel plus général ».
« L’idée clé est d’utiliser le mouvement préalable des modèles de diffusion texte-vidéo en incorporant l’image dans le processus génératif à titre de guide », indique l’article. En comparaison, les techniques « traditionnelles » « se concentrent principalement sur l’animation de scènes naturelles avec une dynamique stochastique (par exemple les nuages et les fluides) ou des mouvements spécifiques à un domaine (par exemple les cheveux humains ou les mouvements du corps). »
Dans une démo (voir ci-dessous) qui compare DynamiCrafter, Stable Video Diffusion (lancé en novembre) et Pika Labs, récemment mis en avant, le résultat du modèle Tencent apparaît légèrement plus animé que les autres. Inévitablement, les échantillons choisis favoriseraient DynamiCrafter, et aucun des modèles, après mes premiers essais, ne laisse l’impression que l’IA sera bientôt capable de produire des films à part entière.
Néanmoins, les vidéos génératives suscitent de grands espoirs en tant que prochain point central de la course à l’IA après l’essor des textes et des images génératives. On s’attend donc à ce que les startups et les acteurs technologiques historiques investissent des ressources dans ce domaine. Cela ne fait pas exception en Chine. Outre Tencent, ByteDance, société mère de TikTok, Baidu et Alibaba ont chacun publié leurs modèles de diffusion vidéo.
MagicVideo de ByteDance et UniVG de Baidu ont publié des démos sur GitHub, bien qu’aucun ne semble encore être disponible au public. Comme Tencent, Alibaba a rendu son modèle de génération vidéo VGen open source, une stratégie de plus en plus populaire parmi les entreprises technologiques chinoises qui espèrent toucher la communauté mondiale des développeurs.