Le texte en vidéo est la prochaine grande chose dans l’IA. Nous avons vu il y a quelques semaines à quel point la publicité Pepperoni Hugspot générée par l’IA était géniale (et un peu effrayante). Pizza Later, la personne qui a développé cette vidéo, nous a dit qu’ils ont utilisé un outil appelé Runway Gen-2 (s’ouvre dans un nouvel onglet) pour faire les images animées dans ce projet. Grâce à son moteur de synthèse vidéo, ils ont pu donner des invites simples telles que « un homme/une femme/une famille heureux(se) mangeant une part de pizza dans un restaurant, une publicité télévisée » et obtenir un contenu photoréaliste.
Je viens d’avoir accès à la version bêta publique de Runway Gen-2 et je suis vraiment impressionné par la nature réaliste de sa sortie. Alors que les vidéos sont courtes à seulement quatre secondes chacune, la qualité des images est impressionnante et tout fonctionne en envoyant de courtes requêtes à un bot sur le serveur Discord de Runway ML.
En envoyant quelques mots de texte au bot @ Gen-2, j’ai pu obtenir de courts extraits photoréalistes (ou de style dessin animé) de tout, d’une famille en train de savourer un dîner de sushi à un robot avec un grave problème d’alcool. La sortie n’était souvent pas exactement ce que j’avais demandé, mais elle était toujours intéressante et supérieure au terrain de jeu texte-vidéo NeuralInternet dont j’ai parlé la semaine dernière.
Bien que n’importe qui puisse rejoindre le serveur, vous ne verrez la liste des salons de discussion Gen-2 qu’une fois que vous aurez accès au programme bêta (dont beaucoup sont sur la liste d’attente). Il y a des salles où vous pouvez discuter et partager des projets avec d’autres utilisateurs, puis il y a trois salles nommées Generate One, Generate Two et Generate Three où vous pouvez envoyer des invites directement au bot @Gen-2. Les modérateurs vous encouragent à continuer à envoyer des invites au même fil afin de ne pas gâcher chaque salon de discussion.
Inviter la piste Gen-2
Une invite Runway Gen-2 pourrait ressembler à « @Gen-2 Un robot humanoïde ivre qui regarde la caméra et vomit de petites vis hors de sa bouche. » Le bot répondra immédiatement avec votre invite et certains paramètres qu’il utilise (ex : « upscaling ») que vous pouvez modifier en émettant une nouvelle invite (plus à ce sujet plus tard). Ensuite, quelques minutes plus tard, vous obtiendrez une vidéo de 4 secondes basée sur votre invite.
Voici à quoi ressemblait mon robot ivre. Toutes les vidéos sont lisibles depuis Discord et vous pouvez les télécharger sous forme de fichiers MP4. J’ai converti séparément tous les exemples vidéo présentés dans cet article en GIF animés afin que nous puissions les visualiser plus facilement (et sans publicités pré-roll).
Vous remarquerez que le clip ci-dessus n’était pas exactement ce que j’avais demandé. Le robot ne vomit pas les vis comme je l’avais prévu. Au lieu de cela, il regarde simplement d’un air menaçant une tasse de bière. Mes autres tentatives à cette invite n’étaient pas exactement ce que je voulais non plus. Quand j’ai oublié le mot « ivre », j’ai eu un robot qui a ouvert la bouche mais qui n’a rien craché.
Utilisation d’images avec les invites Runway Gen-2
Vous pouvez également fournir des images au bot en les copiant et en les collant dans Discord avec l’invite de texte ou en plaçant l’URL de l’image dans l’invite. Cependant, Runway Gen-2 n’utilisera pas réellement l’image que vous avez téléchargée. Il ne fera que s’inspirer de l’image pour créer sa propre vidéo. J’ai téléchargé des images de moi plusieurs fois et cela m’a donné des vidéos de personnes qui me ressemblaient un peu, mais qui n’étaient certainement pas moi.
Par exemple, lorsque j’ai téléchargé une photo de moi et que je ne lui ai donné aucune autre information, cela montrait un homme chauve d’âge moyen avec des lunettes de soleil qui n’était pas moi, debout à côté d’une rivière et de quelques bâtiments. Sa bouche bougea et l’eau bougea.
Le bot Runway Gen-2 est plus efficace pour copier l’émotion ou le sujet d’une image que vous fournissez. Je lui ai montré une image de moi-même avec une expression de dégoût sur le visage et j’ai demandé « ce type regardant la caméra et disant » oh mec « . »
De nombreux utilisateurs du serveur Discord disent avoir obtenu d’excellents résultats en générant une image fixe avec un autre outil d’IA tel que Midjourney ou Stable Diffusion, puis en transmettant cette image à CLIP Interrogator 2.1 sur Hugging Face, un outil qui regarde une image puis vous donne des invites qui, selon lui, font référence à cette image.
J’ai essayé ce procédé en demandant à Stable Diffusion de me faire une image d’un garçon sur un trottoir jouant avec des robots jouets dans les années 1980. J’ai ensuite pris l’image dans CLIP Interrogator et j’ai obtenu des exemples d’invites assez évidentes telles que « garçon debout à côté d’un robot ». Pourtant, insérer la même image dans l’invite ne m’a pas tout à fait donné ce que je voulais. J’ai un garçon avec deux robots debout devant une rue, mais ce n’était pas la même rue ou le même garçon.
Bouger ou ne pas bouger
La limite de temps elle-même signifie généralement qu’il n’y a pas beaucoup de temps pour le mouvement dans chaque clip. Mais, en plus de cela, j’ai trouvé que de nombreux clips avaient très peu de mouvement. Souvent, c’était juste la tête de quelqu’un qui bougeait ou un liquide qui coulait ou de la fumée qui montait d’un incendie.
Un bon moyen d’obtenir plus de mouvement est de mettre une invite dans laquelle demande un time-lapse ou un panoramique quelconque. Lorsque j’ai demandé un time-lapse d’un volcan islandais ou un panoramique d’un métro de New York, j’ai obtenu de très bons résultats. Lorsque j’ai demandé une vue panoramique de la ligne d’horizon de Taipei, j’ai fait bouger des nuages mais pas de panoramique, et la ville n’était certainement pas Taipei.
Demander à courir, chasser ou monter à cheval peut ou non faire le travail. Quand j’ai demandé une « tortue en skateboard », j’ai eu une sorte d’animal ressemblant à une tortue qui roule dans la rue à grande vitesse. Mais quand j’ai demandé que les boxeurs Intel et AMD se battent, j’ai eu une photo de deux boxeurs qui ne bougeaient pas du tout (et aucun des deux n’avait de logos Intel ou AMD).
À quoi Runway Gen-2 est bon et mauvais
Comme d’autres générateurs d’images AI, Runway Gen-2 ne fait pas un excellent travail de reproduction de personnages, de produits ou de lieux de marque très spécifiques. Quand je l’ai demandé pour la boxe de Mario et Luigi, j’ai eu deux personnages qui ressemblent à des contrefaçons des personnages de Nintendo. J’ai demandé plusieurs fois des vidéos de Godzilla et j’ai obtenu des lézards géants que même le fan le plus occasionnel ne confondrait pas avec le roi des monstres.
C’était un peu mieux avec les références Minecraft. Quand j’ai demandé une liane et un enderman mangeant de la pizza et encore une liane mangeant chez McDonald’s, j’ai eu des lianes décentes mais un enderman inexact. Demander une famille de lianes mangeant de la pizza m’a donné une famille d’humanoïdes qui semblent venir de Minecraft. Quiconque a joué à Minecraft sait que les lianes sont des monstres verts avec des points noirs.
L’outil est terrible avec les logos. Je lui ai donné le logo de Tom’s Hardware et lui ai demandé d’utiliser le logo dans une publicité et cela m’a rendu cette chose bizarre.
Quand je lui ai demandé un CPU AMD Ryzen en feu, j’ai eu quelque chose qui ressemblait vaguement à un PCU avec un logo qu’il ne vous reste plus qu’à voir par vous-même (ci-dessous).
Ce que Runway Gen-2 fait vraiment bien, c’est de vous donner des images génériques de personnes et de familles faisant des choses comme manger. Vous pouvez ou non leur faire manger exactement ce que vous voulez. Quand j’ai demandé une famille mangeant des vers vivants, j’ai eu une famille qui ressemblait plus à manger de la salade. Une famille mangeant des sushis dans une pizzeria des années 1970 semblait particulièrement réaliste.
Je me sens obligé de souligner que j’ai presque toujours eu des blancs quand j’ai demandé une personne sans préciser son appartenance ethnique. La seule fois où j’ai eu une famille (ou une personne) non blanche sans en demander spécifiquement une, c’est quand j’ai demandé à la famille de manger des sushis. Il s’agit d’un problème bien connu avec les données d’entraînement sur de nombreux modèles d’IA générative.
Paramètres spéciaux
Il existe une poignée de paramètres que vous pouvez ajouter à la fin de votre invite dans Runway Gen-2 afin de modifier un peu la sortie. Je n’ai pas beaucoup rigolé avec ça.
- –haut de gamme offre une résolution plus élevée
- –interpoler rend la vidéo plus fluide
- –cfg [number] contrôle la créativité de l’IA. Des valeurs plus élevées sont plus proches de ce que vous avez demandé.
- –écran vert sortie c’est la vidéo avec une zone d’écran vert que vous pouvez utiliser dans l’édition
- –graine est un nombre qui aide à déterminer le résultat. Par défaut, c’est un nombre aléatoire à chaque fois, mais si vous réutilisez le même nombre, vous devriez obtenir un résultat similaire.
Tout assembler
Si vous recherchez sur Internet des exemples de vidéos Runway Gen-2, vous remarquerez peut-être que de nombreuses vidéos durent plus de 4 secondes et ont du son. Les gens créent ces vidéos en assemblant de nombreux clips différents de 4 secondes dans un éditeur vidéo et en ajoutant du son et de la musique qu’ils ont obtenus ailleurs.
L’une des plus célèbres de ces vidéos Runway Gen-2 est la publicité pour la pizza Pepperoni Hugspot que j’ai mentionnée ci-dessus. Mais, dans le Runway ML Discord, je vois beaucoup de gens publier des liens YouTube vers leurs créations. Un de mes préférés est « Terreur des spaghettis » qui a été posté sur Twitter par Andy McNamara. Et la nouvelle publicité pour avocat de Pizza Later est une huée.
Conclusion
Runway Gen-2 est en version bêta privée au moment où j’écris ceci, mais la société a déclaré qu’elle avait l’intention de la mettre bientôt à la disposition de tous, comme elle l’a déjà fait avec son produit Gen-1. En tant que démo technologique, c’est vraiment impressionnant et je peux voir quelqu’un utiliser ses courts clips au lieu de vidéos ou de GIF animés.
Même si le temps était prolongé à 60 secondes, il semble peu probable que cet outil puisse remplacer de sitôt une vidéo tournée par des professionnels (ou même des amateurs). Son incapacité à reproduire avec précision des lieux et des personnes très spécifiques est un énorme inconvénient, mais c’est aussi une limitation que j’ai vue dans toutes les IA générant des images jusqu’à présent. Cependant, la technologie est là et, à mesure que les données de formation augmentent, cela pourrait être encore plus impressionnant.