Nous avons fait boire une bière à un chat avec le générateur de vidéo IA de Runway, et des mains lui ont poussé

En juin, Runway a lancé un nouveau modèle de synthèse texte-vidéo appelé Gen-3 Alpha. Il convertit les descriptions écrites appelées « invites » en clips vidéo HD sans son. Nous avons depuis eu l’occasion de l’utiliser et avons souhaité partager nos résultats. Nos tests montrent qu’une invite minutieuse n’est pas aussi importante que la correspondance des concepts probablement trouvés dans les données d’entraînement, et que l’obtention de résultats amusants nécessite probablement de nombreuses générations et une sélection sélective.

Un thème récurrent de tous les modèles d’IA génératifs que nous avons vus depuis 2022 est qu’ils peuvent être excellents pour mélanger des concepts trouvés dans les données d’entraînement, mais sont généralement très médiocres pour généraliser (appliquer des « connaissances » acquises à de nouvelles situations sur lesquelles le modèle n’a pas été explicitement formé). Cela signifie qu’ils peuvent exceller dans la nouveauté stylistique et thématique, mais peiner dans la nouveauté structurelle fondamentale qui va au-delà des données d’entraînement.

Que signifie tout cela ? Dans le cas de Runway Gen-3, le manque de généralisation signifie que vous pourriez demander un voilier dans une tasse de café tourbillonnante, et à condition que les données d’entraînement de Gen-3 incluent des exemples vidéo de voiliers et de café tourbillonnant, c’est une combinaison nouvelle « facile » que le modèle peut réaliser de manière assez convaincante. Mais si vous demandez un chat buvant une canette de bière (dans une publicité pour la bière), cela échouera généralement car il n’y a probablement pas beaucoup de vidéos de chats photoréalistes buvant des boissons humaines dans les données d’entraînement. Au lieu de cela, le modèle s’appuiera sur ce qu’il a appris sur les vidéos de chats et les vidéos de publicités pour la bière et les combinera. Le résultat est un chat avec des mains humaines qui boivent une bière.

(Mise à jour : Runway n’a pas révélé d’où provenaient ses données d’entraînement, mais après la publication de cet article, 404 Media a publié un rapport qui semble montrer qu’une grande partie des données vidéo provenaient d’un grattage non autorisé de vidéos YouTube.)

Quelques conseils de base

Pendant la phase de test de la Gen-3 Alpha, nous avons souscrit au forfait Standard de Runway, qui offre 625 crédits pour 15 $ par mois, plus quelques crédits d’essai gratuits en bonus. Chaque génération coûte 10 crédits par seconde de vidéo, et nous avons créé des vidéos de 10 secondes pour 100 crédits chacune. Le nombre de générations que nous pouvions réaliser était donc limité.

Nous avons d’abord essayé quelques exemples de nos tests de synthèse d’images précédents, comme des chats buvant de la bière, des barbares avec des téléviseurs cathodiques et des reines de l’univers. Nous avons également plongé dans l’univers d’Ars Technica avec le « requin-lune », notre mascotte. Vous verrez tous ces résultats et bien plus encore ci-dessous.

Nous avions si peu de crédits que nous ne pouvions pas nous permettre de les rediffuser et de faire une sélection sélective, donc ce que vous voyez pour chaque invite est exactement la seule génération que nous avons reçue de Runway.

« Une personne très intelligente lit « Ars Technica » sur son ordinateur lorsque l’écran explose »

« Publicité pour un nouveau cheeseburger flambé de McDonald’s »

« Le requin-lune sautant d’un écran d’ordinateur et attaquant une personne »

« Un chat dans une voiture buvant une canette de bière, publicité pour la bière »

« Will Smith mangeant des spaghettis » a déclenché un filtre, nous avons donc essayé « un homme noir mangeant des spaghettis » (Regardez jusqu’à la fin.)

« Des animaux humanoïdes robotisés avec des costumes de vaudeville parcourent les rues en collectant de l’argent de protection sous forme de jetons »

« Un joueur de basket-ball dans un wagon de train de voyageurs hanté avec un terrain de basket-ball, et il joue contre une équipe de fantômes »

« Un troupeau d’un million de chats courant sur une colline, vue aérienne »

« Images de jeu vidéo d’un jeu de plateforme 3D dynamique à la troisième personne des années 1990 mettant en scène un garçon requin anthropomorphe »

Source-147