Microsoft VASA-1 AI peut faire chanter ou parler une seule image

L’IA et ses modèles évoluent rapidement. De la génération d’images, de vidéos et d’audio à la création de clips audio et vidéo à partir d’une seule image, il y a eu une énorme amélioration. Microsoft Research a annoncé avoir introduit VASA-1, un modèle d’IA capable de faire chanter ou parler une image. Il transforme une image en clip vidéo avec de l’audio et les expressions faciales adaptées à l’audio.

Microsoft VASA-1 AI peut faire chanter ou parler une seule image

VASA est un nouveau modèle d’IA de Microsoft capable de générer des visages parlants hyperréalistes à partir d’une seule image. Il vous suffit de saisir une image et un seul clip audio pour obtenir un clip vidéo réaliste. Le modèle VASA synchronise non seulement les lèvres de l’audio, mais génère également des nuances faciales et des moments naturels de la tête pour s’adapter à l’audio et créer un impact réaliste.

Le modèle VASA peut fournir une sortie vidéo de haute qualité et surpasse considérablement les autres modèles capables de générer des vidéos. Il peut également générer des vidéos 512×512 en ligne jusqu’à 40 FPS avec une latence très négligeable. Ce modèle peut être très utile pour créer des avatars réalistes qui imitent les comportements conversationnels humains.

Avec VASA, les utilisateurs peuvent contrôler la génération vidéo en saisissant les conditions de regard, la distance de la tête et d’autres décalages émotionnels. Le modèle peut gérer des photos artistiques comme la Joconde, des chants audio et des discours non anglais pour générer des vidéos hyper réalistes.

modèle vasa

Microsoft dans son document de recherche a ajouté que la recherche se concentre sur la génération de compétences visuelles et affectives pour les avatars virtuels d’IA destinés à des cas d’utilisation positifs. Tout contenu généré avec son mode destiné à induire en erreur ou à tromper est contraire à leurs politiques. Microsoft a reconnu que, comme d’autres modèles, celui-ci peut également être utilisé pour usurper l’identité d’humains. Ils sont convaincus qu’il existe un écart entre ce qu’il est désormais possible de réaliser et les vidéos réelles et authentiques.

Microsoft n’a pas l’intention de publier la démo en ligne, l’API, les détails de mise en œuvre supplémentaires ou toute autre offre connexe au public tant qu’ils ne sont pas sûrs que les outils seront utilisés de manière responsable et dans le respect des réglementations appropriées.

Source-137