Mardi, Microsoft Research Asia a dévoilé VASA-1, un modèle d’IA capable de créer une vidéo animée synchronisée d’une personne parlant ou chantant à partir d’une seule photo et d’une piste audio existante. À l’avenir, il pourrait alimenter des avatars virtuels qui s’affichent localement et ne nécessitent pas de flux vidéo, ou permettre à toute personne disposant d’outils similaires de prendre une photo d’une personne trouvée en ligne et de lui donner l’impression de dire ce qu’elle veut.
« Cela ouvre la voie à des engagements en temps réel avec des avatars réalistes qui imitent les comportements conversationnels humains », lit-on dans le résumé du document de recherche intitulé « VASA-1 : visages parlants réalistes pilotés par audio générés en temps réel ». C’est l’œuvre de Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong et Baining Guo.
Le framework VASA (abréviation de « Visual Affective Skills Animator ») utilise l’apprentissage automatique pour analyser une image statique ainsi qu’un clip audio vocal. Il est ensuite capable de générer une vidéo réaliste avec des expressions faciales précises, des mouvements de tête et une synchronisation labiale avec l’audio. Il ne clone ni ne simule les voix (comme d’autres recherches Microsoft) mais s’appuie sur une entrée audio existante qui pourrait être spécialement enregistrée ou prononcée dans un but particulier.
Microsoft affirme que le modèle surpasse considérablement les méthodes d’animation vocale précédentes en termes de réalisme, d’expressivité et d’efficacité. À nos yeux, cela semble être une amélioration par rapport aux modèles d’animation à image unique précédents.
Les efforts de recherche en IA pour animer une seule photo d’une personne ou d’un personnage remontent à au moins quelques années, mais plus récemment, les chercheurs ont travaillé sur la synchronisation automatique d’une vidéo générée avec une piste audio. En février, un modèle d’IA appelé EMO : Emote Portrait Alive du groupe de recherche de l’Institute for Intelligent Computing d’Alibaba a fait des vagues avec une approche similaire à VASA-1 qui peut automatiquement synchroniser une photo animée avec une piste audio fournie (ils l’appellent « Audio2Video »). .
Formé sur les clips YouTube
Les chercheurs de Microsoft ont formé VASA-1 sur l’ensemble de données VoxCeleb2 créé en 2018 par trois chercheurs de l’Université d’Oxford. Cet ensemble de données contient « plus d’un million de déclarations pour 6 112 célébrités », selon le site VoxCeleb2, extraites de vidéos téléchargées sur YouTube. VASA-1 serait capable de générer des vidéos d’une résolution de 512 x 512 pixels jusqu’à 40 images par seconde avec une latence minimale, ce qui signifie qu’il pourrait potentiellement être utilisé pour des applications en temps réel telles que la vidéoconférence.
Pour présenter le modèle, Microsoft a créé une page de recherche VASA-1 présentant de nombreux exemples de vidéos de l’outil en action, notamment des personnes chantant et parlant en synchronisation avec des pistes audio préenregistrées. Ils montrent comment le modèle peut être contrôlé pour exprimer différentes humeurs ou changer son regard. Les exemples incluent également des générations plus fantaisistes, comme Mona Lisa rappant sur une piste audio d’Anne Hathaway interprétant une chanson « Paparazzi » sur Conan O’Brien.
Les chercheurs affirment que, pour des raisons de confidentialité, chaque exemple de photo sur leur page a été généré par l’IA par StyleGAN2 ou DALL-E 3 (à l’exception de la Joconde). Mais il est évident que la technique pourrait également s’appliquer aux photos de personnes réelles, même s’il est probable qu’elle fonctionnera mieux si une personne ressemble à une célébrité présente dans l’ensemble de données d’entraînement. Pourtant, les chercheurs affirment que leur intention n’est pas de falsifier de vrais humains.
« Nous explorons la génération de compétences visuelles et affectives pour les personnages virtuels et interactifs [sic], NE PAS usurper l’identité d’une personne dans le monde réel. Il ne s’agit que d’une démonstration de recherche et il n’y a pas de plan de sortie de produit ou d’API », peut-on lire sur le site.
Alors que les chercheurs de Microsoft vantent des applications positives potentielles telles que l’amélioration de l’équité éducative, l’amélioration de l’accessibilité et l’offre d’un accompagnement thérapeutique, la technologie pourrait également facilement être utilisée à mauvais escient. Par exemple, cela pourrait permettre aux gens de simuler des chats vidéo, de donner l’impression que de vraies personnes disent des choses qu’elles n’ont jamais réellement dites (surtout lorsqu’elles sont associées à une piste vocale clonée) ou d’autoriser le harcèlement à partir d’une seule photo sur les réseaux sociaux.
À l’heure actuelle, la vidéo générée semble encore imparfaite à certains égards, mais elle pourrait être assez convaincante pour certaines personnes si elles ne savaient pas à quoi s’attendre une animation générée par l’IA. Les chercheurs disent qu’ils en sont conscients, c’est pourquoi ils ne publient pas ouvertement le code qui alimente le modèle.
« Nous nous opposons à tout comportement visant à créer des contenus trompeurs ou préjudiciables à des personnes réelles et souhaitons appliquer notre technique pour faire progresser la détection des contrefaçons », écrivent les chercheurs. « Actuellement, les vidéos générées par cette méthode contiennent encore des artefacts identifiables, et l’analyse numérique montre qu’il reste encore un écart pour atteindre l’authenticité des vidéos réelles. »
VASA-1 n’est qu’une démonstration de recherche, mais Microsoft est loin d’être le seul groupe à développer une technologie similaire. Si l’on se fie à l’histoire récente de l’IA générative, ce n’est potentiellement qu’une question de temps avant qu’une technologie similaire devienne open source et disponible gratuitement – et son réalisme continuera très probablement à s’améliorer au fil du temps.