ChatGPT peut intensifier son jeu avec la sortie de GPT4 mais il a été battu au poing dans la course pour créer une vidéo générée par l’IA.
La start-up new-yorkaise Runway Research (s’ouvre dans un nouvel onglet) a annoncé son nouveau système Gen 2 qui peut produire du contenu vidéo en boucle de 3 secondes à partir d’invites de texte ou d’image, et bien qu’il ne soit pas disponible publiquement pour le moment, une vidéo promotionnelle promet son arrivée « très bientôt », et vous pouvez vous inscrire à l’attente liste (s’ouvre dans un nouvel onglet) maintenant.
Les aperçus sur le propre site de Runway sont intéressants. Les vidéos ressemblent à des GIF super chargés, mais tout ce que vous pouvez imaginer, vous pouvez le créer. Bard AI de Google et ChatGPT ont tous deux démontré des créations de texte en vidéo, mais aucun n’est allé au-delà de la phase de test. Certains s’attendaient à ce que GPT4 soit lancé avec des capacités vidéo, mais bien qu’il puisse traiter et éditer des images, il n’y a actuellement aucune fonctionnalité vidéo.
Principalement un service de montage vidéo et d’image, l’IA de Runway peut également superposer différentes textures ou effets sur une vidéo existante et la faire correspondre image par image. Cela ouvre toutes sortes de possibilités et vous permet, par exemple, de transformer une vidéo existante en dessin animé. Un exemple vidéo sur le site Web de Runway montre des spots de style dalmatien transposés sur un golden retriever.
Comment fonctionne la vidéo Runway AI ?
Dans un article de recherche (s’ouvre dans un nouvel onglet) intitulé «Structure et synthèse vidéo guidée par le contenu avec des modèles de diffusion», Runway décrit le fonctionnement de la technologie. C’est assez lourd, mais dans leurs propres mots, ils le décrivent ainsi :
« Notre modèle de diffusion vidéo latente synthétise de nouvelles vidéos en fonction de leur structure et de leur contenu. Nous assurons la cohérence structurelle en conditionnant les estimations de profondeur tandis que le contenu est contrôlé avec des images ou un langage naturel. Des résultats stables dans le temps sont obtenus avec des connexions temporelles supplémentaires dans le modèle et une formation conjointe d’images et de vidéos. De plus, une nouvelle méthode de guidage, inspirée du guidage sans classificateur, permet à l’utilisateur de contrôler la cohérence temporelle des sorties. »
En termes simples, Runway utilise une diffusion vidéo sensible au contenu et un modèle qui a été formé sur un grand nombre de vidéos sans sous-titres et de données texte-image pour fournir un contexte à l’IA.
Peut-être plus que les chatbots IA, le potentiel de la vidéo générée par l’IA à causer des dommages est très réel. Alors que les vidéos et les images deepfake deviennent de plus en plus courantes, il existe toujours une authenticité implicite autour du contenu vidéo que nous devrons commencer à reconsidérer. Avec toute nouvelle technologie, il y aura toujours du contenu bouleversant et il faudra mettre en place des filtres.
Nous garderons un œil sur Runway et le testerons une fois qu’il sera prêt à être lancé.