Au milieu des controverses de la semaine dernière sur l’IA concernant la réglementation, les craintes d’une catastrophe mondiale et la perturbation de l’emploi, les nuages se sont brièvement dissipés. Pendant un bref instant brillant, nous pouvons profiter d’une vidéo absolument ridicule générée par l’IA de Will Smith mangeant des spaghettis qui illumine maintenant nos vies avec sa terrible gloire.
Lundi, un utilisateur de Reddit nommé « chaindrop » a partagé la vidéo générée par l’IA sur le sous-reddit r/StableDiffusion. Il propager rapidement à d’autres formes de médias sociaux et a inspiré des ruminations mitigées dans la presse. Par exemple, Vice a déclaré que la vidéo « vous hantera pour le reste de votre vie », tandis que l’AV Club l’a qualifiée de « point final naturel pour le développement de l’IA ».
Nous sommes quelque part entre les deux. La vidéo silencieuse de 20 secondes se compose de 10 segments de deux secondes générés indépendamment et assemblés. Chacun montre des angles différents d’un Will Smith simulé (à un moment donné, même deux Will Smith) engloutissant voracement des spaghettis. Il est entièrement généré par ordinateur, grâce à l’IA.
Et vous le verrez maintenant :
Nous savons ce que vous pensez : « N’ai-je pas vu ce genre de technologie avancée de deepfake en 1987c’est l’homme qui court? » Non, c’était Jesse « The Body » Ventura qui battait un faux Arnold Schwarzenegger dans un match en cage de jeu télévisé dystopique, se déroulant quelque part entre 2017 et 2019. Ici, en 2023, nous avons un faux Will Smith mangeant des spaghettis.
Cet exploit est rendu possible grâce à un nouvel outil d’IA open source appelé ModelScope, lancé il y a quelques semaines par DAMO Vision Intelligence Lab, une division de recherche d’Alibaba. ModelScope est un modèle de diffusion « text2video » qui a été formé pour créer de nouvelles vidéos à partir d’invites en analysant des millions d’images et des milliers de vidéos récupérées dans les ensembles de données LAION5B, ImageNet et Webvid. Cela inclut les vidéos de Shutterstock, d’où le filigrane fantomatique « Shutterstock » sur sa sortie.
La communauté AI HuggingFace héberge actuellement une démo en ligne de ModelScope, bien qu’elle nécessite un compte, et vous devrez payer pour le temps de calcul pour l’exécuter. Nous avons essayé de l’utiliser mais il était surchargé, probablement à cause de la folie des spaghettis de Smith.
Selon chaindrop, le flux de travail pour créer la vidéo était assez simple : donnez à ModelScope l’invite « Will Smith mangeant des spaghettis » et générez-la à 24 images par seconde (FPS). Ensuite, chaindrop a utilisé l’outil d’interpolation Flowframes pour augmenter le FPS de 24 à 48, puis l’a ralenti à la moitié de la vitesse, ce qui a donné une vidéo plus fluide.
Bien sûr, ModelScope n’est pas le seul jeu en ville concernant le domaine émergent de text2video. Récemment, Runway a lancé « Gen-2 », et nous avons déjà couvert les premiers projets de recherche text2video de Meta et Google.
Depuis que Will Smith mangeant des spaghettis est devenu un succès viral, Internet a été honoré de suivis tels que Scarlett Johansson et Joe Biden mangeant des spaghettis. Il y a même Smith en train de manger des boulettes de viande, une vidéo qui est peut-être vraiment horrible. Mais c’est toujours génial d’une manière ou d’une autre – un futur fourrage parfait pour les mèmes.
Bien sûr, une fois que les résultats de ces outils text2video deviendront trop réalistes, nous aurons d’autres problèmes à traiter – des problèmes sociaux et culturels profonds, probablement. Mais pour l’instant, profitons de la gloire imparfaite et horrible de ModelScope. Nous nous excusons d’avance.