L’outil d’IA de Microsoft peut transformer des photos en vidéos réalistes de personnes parlant et chantant

Microsoft Research Asia a dévoilé un nouvel outil d’IA expérimental appelé VASA-1 qui peut prendre une image fixe d’une personne – ou le dessin d’une personne – et un fichier audio existant pour créer un visage parlant réaliste en temps réel. Il a la capacité de générer des expressions faciales et des mouvements de tête pour une image fixe existante ainsi que les mouvements de lèvres appropriés pour correspondre à un discours ou une chanson. Les chercheurs ont téléchargé une tonne d’exemples sur la page du projet, et les résultats semblent suffisamment bons pour pouvoir tromper les gens en leur faisant croire qu’ils sont réels.

Bien que les mouvements des lèvres et de la tête dans les exemples puissent encore paraître un peu robotiques et désynchronisés après une inspection plus approfondie, il est toujours clair que la technologie pourrait être utilisée à mauvais escient pour créer facilement et rapidement de fausses vidéos de vraies personnes. Les chercheurs eux-mêmes sont conscients de ce potentiel et ont décidé de ne pas publier « de démonstration en ligne, d’API, de produit, de détails de mise en œuvre supplémentaires ou toute offre connexe » jusqu’à ce qu’ils soient sûrs que leur technologie « sera utilisée de manière responsable et conformément aux règles appropriées ». règlements. » Ils n’ont cependant pas précisé s’ils prévoyaient de mettre en œuvre certaines garanties pour empêcher les mauvais acteurs de les utiliser à des fins néfastes, comme créer de la pornographie deepfake ou des campagnes de désinformation.

Les chercheurs pensent que leur technologie présente de nombreux avantages malgré son potentiel d’utilisation abusive. Ils ont déclaré qu’il pouvait être utilisé pour renforcer l’équité en matière d’éducation, ainsi que pour améliorer l’accessibilité pour les personnes ayant des difficultés de communication, peut-être en leur donnant accès à un avatar capable de communiquer à leur place. Il peut également fournir une compagnie et un soutien thérapeutique à ceux qui en ont besoin, ont-ils déclaré, insinuant que le VASA-1 pourrait être utilisé dans des programmes offrant un accès à des personnages IA avec lesquels les gens peuvent parler.

Selon le document publié avec l’annonce, VASA-1 a été formé sur l’ensemble de données VoxCeleb2, qui contient « plus d’un million d’énoncés pour 6 112 célébrités » extraits de vidéos YouTube. Même si l’outil a été formé sur des visages réels, il fonctionne également sur des photos artistiques comme la Joconde, que les chercheurs ont combinées de manière amusante avec un fichier audio de l’interprétation virale d’Anne Hathaway du film de Lil Wayne. Paparazzi. C’est tellement délicieux que ça vaut le détour, même si vous doutez de l’utilité d’une telle technologie.

Ce contenu intégré n’est pas disponible dans votre région.

Cet article contient des liens d’affiliation ; si vous cliquez sur un tel lien et effectuez un achat, nous pouvons gagner une commission.

Source-145