« Animate Anybody » annonce l’approche des deepfakes en plein mouvement

Comme si les deepfakes d’images fixes ne suffisaient pas, nous devrons peut-être bientôt faire face à des vidéos générées par quiconque ose mettre une photo d’eux-mêmes en ligne : avec Animate Anybody, les mauvais acteurs peuvent mieux que jamais manipuler les gens.

La nouvelle technique vidéo générative a été développée par des chercheurs de l’Institute for Intelligent Computing du groupe Alibaba. Il s’agit d’un grand pas en avant par rapport aux systèmes image-vidéo précédents comme DisCo et DreamPose, qui étaient impressionnants dès l’été mais qui appartiennent désormais à l’histoire ancienne.

Ce qu’Animate Any peut faire n’est en aucun cas sans précédent, mais a dépassé cet espace difficile entre « une expérience académique bancale » et « assez bien si vous n’y regardez pas de près ». Comme nous le savons tous, la prochaine étape est tout simplement « assez bonne », où les gens ne prendront même pas la peine de regarder de près parce qu’ils supposent que c’est réel. C’est là que se trouvent actuellement les images fixes et les conversations textuelles, qui bouleversent notre sens de la réalité.

Les modèles d’image en vidéo comme celui-ci commencent par extraire des détails, comme les traits du visage, les motifs et la pose, à partir d’une image de référence comme une photo de mode d’un mannequin portant une robe à vendre. Ensuite, une série d’images est créée dans laquelle ces détails sont mappés sur des poses très légèrement différentes, qui peuvent être capturées en mouvement ou elles-mêmes extraites d’une autre vidéo.

Les modèles précédents montraient que cela était possible, mais cela posait de nombreux problèmes. L’hallucination était un gros problème, car le modèle devait inventer des détails plausibles, comme la façon dont une manche ou des cheveux pouvaient bouger lorsqu’une personne se tournait. Cela conduit à beaucoup d’images vraiment étranges, rendant la vidéo résultante loin d’être convaincante. Mais la possibilité demeure, et Animate Any est bien amélioré, même s’il est encore loin d’être parfait.

Les spécificités techniques du nouveau modèle vont au-delà de la plupart, mais l’article met l’accent sur une nouvelle étape intermédiaire qui « permet au modèle d’apprendre de manière exhaustive la relation avec l’image de référence dans un espace de fonctionnalités cohérent, ce qui contribue de manière significative à l’amélioration de la préservation des détails d’apparence. » En améliorant la rétention des détails de base et fins, les images générées sur toute la ligne disposent d’une vérité terrain plus solide avec laquelle travailler et s’avèrent bien meilleures.

Crédits images : Groupe Alibaba

Ils montrent leurs résultats dans quelques contextes. Les mannequins prennent des poses arbitraires sans se déformer et sans que les vêtements perdent leur motif. Une figurine animée en 2D prend vie et danse de manière convaincante. Lionel Messi réalise quelques mouvements génériques.

Ils sont loin d’être parfaits, notamment en ce qui concerne les yeux et les mains, qui posent des problèmes particuliers aux modèles génératifs. Et les poses les mieux représentées sont celles les plus proches de l’original ; si la personne se retourne, par exemple, le modèle a du mal à suivre. Mais c’est un énorme pas en avant par rapport à l’état de la technique précédent, qui produisait beaucoup plus d’artefacts ou perdait complètement des détails importants comme la couleur des cheveux ou des vêtements d’une personne.

Il est troublant de penser qu’à partir d’une seule image de bonne qualité de vous, un acteur (ou producteur) malveillant pourrait vous faire faire à peu près n’importe quoi, et combiné à une technologie d’animation faciale et de capture vocale, il pourrait également vous faire exprimer n’importe quoi en même temps. . Pour l’instant, la technologie est trop complexe et boguée pour un usage général, mais les choses ne le resteront pas longtemps dans le monde de l’IA.

Au moins, l’équipe n’a pas encore dévoilé le code au monde. Bien qu’ils aient une page GitHub, les développeurs écrivent : « nous travaillons activement à la préparation de la démo et du code pour une publication publique. Bien que nous ne puissions pas nous engager sur une date de sortie précise pour le moment, assurez-vous que l’intention de fournir un accès à la fois à la démo et à notre code source est ferme.

L’enfer se déchaînera-t-il lorsque Internet sera soudainement inondé de dancefakes ? Nous le saurons, et probablement plus tôt que nous le souhaiterions.

Source-146