Au cours des derniers mois, nous avons vu comment de grands modèles de langage tels que ChatGPT peuvent générer une copie de texte, comment des générateurs d’images comme Stable Diffusion peuvent créer des images à la demande et même comment certains peuvent faire de la synthèse vocale. Un développeur entreprenant qui passe par la poignée Pizza Plus tard, a combiné cinq modèles d’IA différents pour créer une publicité en direct pour une pizzeria fictive appelée « Pepperoni Hug Spot ».
La vidéo qui en résulte, que j’ai intégrée ci-dessous, est à la fois horrible et impressionnante. La publicité présente des personnes photoréalistes qui mangent, cuisinent et livrent une pizza au pepperoni très appétissante. Il a même un dialogue à consonance humaine et une musique de fond décente. Cependant, les expressions faciales et les yeux morts de certains personnages sont un peu trop.
Évidemment, la qualité du rendu laisse à désirer. Parfois, les objets semblent se fondre les uns dans les autres ; mon fils a dit qu’il semblait que les gens mangeaient de la pizza qui sortait de l’assiette.
Les gens ressemblent tous à des habitants de l’étrange vallée. Et le script quelque peu incohérent se lit comme un texte d’une autre langue qui a été mal traduit en anglais (bien que ce ne soit pas le cas).
Cependant, il est impressionnant de voir à quel point ces technologies sont proches d’être prêtes pour les heures de grande écoute. Nous pouvons voir comment, en peu de temps, les images vidéo photo-réalistes pourraient devenir beaucoup plus convaincantes.
Pour être juste, cette vidéo a nécessité un montage humain. Pizza Later nous a dit qu’ils avaient utilisé cinq modèles différents pour créer divers éléments pour la vidéo, puis qu’ils avaient passé du temps à utiliser Adobe After Effects pour assembler la vidéo, les dialogues, la musique et certaines images personnalisées. Dans l’ensemble, il leur a fallu 3 heures pour terminer le projet.
Pizza Later a déclaré avoir eu l’idée de la publicité après avoir eu accès à Runway Gen-2 (s’ouvre dans un nouvel onglet), un modèle de conversion texte-vidéo en version bêta privée. Dans une interview par e-mail, le développeur m’a dit que leur invite initiale pour la vidéo était juste « un homme/une femme/une famille heureux(se) mangeant une tranche de pizza dans un restaurant, une publicité télévisée ». Piste Gen-1 (s’ouvre dans un nouvel onglet)qui crée des vidéos à partir de séquences existantes, est disponible en essai gratuit dès maintenant sur le Web ou via une toute nouvelle application iOS (s’ouvre dans un nouvel onglet).
Après avoir vu la haute qualité de la vidéo créée par Runway Gen-2, Pizza Later a utilisé GPT-4 (le moteur derrière ChatGPT et Bing Chat) pour trouver un nom pour la pizzeria fictive (Pepperoni Hug Spot) et pour écrire le script. . Le développeur a ensuite utilisé ElevenLabs Prime Voice AI (s’ouvre dans un nouvel onglet) pour fournir une narration réaliste avec une voix masculine. Ils ont utilisé MidJourney (s’ouvre dans un nouvel onglet) pour générer des images qui apparaissent dans la vidéo, y compris l’extérieur du restaurant et certains modèles de pizza. Ils ont également utilisé Soundraw (s’ouvre dans un nouvel onglet) pour créer une musique de fond.
La plupart des outils utilisés par Pizza Later sont payants, mais offrent une sorte d’essai gratuit, un compte gratuit bas de gamme ou un ensemble initial de crédits gratuits. De toute évidence, c’est loin d’être une opération plug and play car le développeur a dû assembler les résultats finaux.
Peut-être que dans un avenir proche, un outil multi-modèle comme Microsoft Jarvis pourra effectuer toutes ces tâches via une seule invite de chat. Ou peut-être qu’un agent autonome comme AutoGPT (voir comment utiliser AutoGPT) générera des publicités si vous lui donnez l’objectif général de commercialiser un restaurant. Cependant, pour l’instant, cette vidéo est vraiment impressionnante, même après avoir su qu’elle nécessitait un montage humain.