Dimanche, Runway a annoncé un nouveau modèle de synthèse vidéo AI appelé Gen-3 Alpha qui est toujours en cours de développement, mais il semble créer une vidéo de qualité similaire à celle de Sora d’OpenAI, qui a fait ses débuts plus tôt cette année (et n’a pas encore été publié). Il peut générer de nouvelles vidéos haute définition à partir d’invites textuelles allant d’humains réalistes à des monstres surréalistes piétinant la campagne.
Contrairement au précédent meilleur modèle de Runway de juin 2023, qui ne pouvait créer que des clips de deux secondes, Gen-3 Alpha serait capable de créer des segments vidéo de 10 secondes de personnes, de lieux et d’objets qui ont une consistance et une cohérence qui surpassent facilement celles de Runway. Génération 2. Si 10 secondes semblent courtes par rapport à la minute complète de vidéo de Sora, considérez que l’entreprise travaille avec un budget de calcul restreint par rapport à OpenAI, plus généreusement financé, et qu’elle a en fait un historique de fourniture de capacités de génération de vidéo aux utilisateurs commerciaux.
Gen-3 Alpha ne génère pas d’audio pour accompagner les clips vidéo, et il est fort probable que les générations temporellement cohérentes (celles qui maintiennent un personnage cohérent dans le temps) dépendent d’un matériel de formation similaire de haute qualité. Mais l’amélioration de la fidélité visuelle de Runway au cours de l’année écoulée est difficile à ignorer.
La vidéo IA se réchauffe
Ces dernières semaines ont été chargées pour la synthèse vidéo IA dans la communauté de recherche en IA, avec notamment le lancement du modèle chinois Kling, créé par Kuaishou Technology, basé à Pékin (parfois appelé « Kwai »). Kling peut générer deux minutes de vidéo HD 1080p à 30 images par seconde avec un niveau de détail et de cohérence qui correspondrait à celui de Sora.
Invite Gen-3 Alpha : « Réflexions subtiles d’une femme sur la vitre d’un train circulant à grande vitesse dans une ville japonaise. »
Peu de temps après les débuts de Kling, les internautes sur les réseaux sociaux ont commencé à créer des vidéos surréalistes d’IA à l’aide de la Luma Dream Machine de Luma AI. Ces vidéos étaient nouvelles et étranges mais manquaient généralement de cohérence ; nous avons testé Dream Machine et n’avons été impressionnés par rien de ce que nous avons vu.
Pendant ce temps, l’un des pionniers de la conversion texte-vidéo, Runway, basé à New York, fondé en 2018, s’est récemment retrouvé la cible de mèmes montrant que sa technologie Gen-2 tombait en disgrâce par rapport aux nouveaux modèles de synthèse vidéo. Cela a peut-être motivé l’annonce de Gen-3 Alpha.
Invite Gen-3 Alpha : « Un astronaute courant dans une ruelle à Rio de Janeiro. »
Générer des humains réalistes a toujours été délicat pour les modèles de synthèse vidéo, c’est pourquoi Runway montre spécifiquement la capacité de Gen-3 Alpha à créer ce que ses développeurs appellent des personnages humains « expressifs » avec une gamme d’actions, de gestes et d’émotions. Cependant, les exemples fournis par l’entreprise n’étaient pas particulièrement expressifs (la plupart du temps, les gens regardaient et clignaient lentement des yeux), mais ils semblent réalistes.
Les exemples humains fournis incluent des vidéos générées d’une femme dans un train, d’un astronaute courant dans une rue, d’un homme avec son visage éclairé par la lueur d’un téléviseur, d’une femme conduisant une voiture et d’une femme courant, entre autres.
Invite Gen-3 Alpha : « Un gros plan d’une jeune femme conduisant une voiture, regardant une forêt verte floue et réfléchie visible à travers la vitre de la voiture pluvieuse. »
Les vidéos de démonstration générées incluent également des exemples de synthèse vidéo plus surréalistes, notamment une créature géante marchant dans une ville délabrée, un homme fait de rochers marchant dans une forêt et le monstre géant de barbe à papa vu ci-dessous, qui est probablement la meilleure vidéo de l’ensemble. page.
Invite Gen-3 Alpha : « Un humanoïde géant, fait de barbe à papa bleue moelleuse, piétinant le sol et rugissant vers le ciel, un ciel bleu clair derrière eux. »
Gen-3 alimentera divers outils d’édition Runway AI (l’une des revendications les plus notables de la société), notamment Multi Motion Brush, Advanced Camera Controls et Director Mode. Il peut créer des vidéos à partir d’invites de texte ou d’images.
Runway affirme que Gen-3 Alpha est le premier d’une série de modèles formés sur une nouvelle infrastructure conçue pour la formation multimodale à grande échelle, faisant un pas vers le développement de ce qu’il appelle des « modèles mondiaux généraux », qui sont des systèmes d’IA hypothétiques qui construire des représentations internes d’environnements et les utiliser pour simuler des événements futurs au sein de ces environnements.