Deep-Live-Cam devient viral, permettant à n’importe qui de devenir un sosie numérique

Agrandir / Une capture vidéo de l’utilisateur X João Fiadeiro remplaçant son visage par JD Vance lors d’un test de Deep-Live-Cam.

Depuis quelques jours, un logiciel appelé Deep-Live-Cam est devenu viral sur les réseaux sociaux car il peut prendre le visage d’une personne extrait d’une seule photo et l’appliquer à une source vidéo en direct d’une webcam tout en suivant la pose, l’éclairage et les expressions de la personne sur la webcam. Bien que les résultats ne soient pas parfaits, le logiciel montre à quelle vitesse la technologie évolue et comment la capacité de tromper les autres à distance devient de plus en plus facile au fil du temps.

Le projet de logiciel Deep-Live-Cam est en cours de développement depuis la fin de l’année dernière, mais des vidéos montrant une personne imitant Elon Musk et le candidat républicain à la vice-présidence JD Vance (entre autres) en temps réel ont fait le tour du Web. L’avalanche d’attention a brièvement permis au projet open source de se hisser à la première place de la liste des dépôts tendance de GitHub (il est actuellement à la quatrième place au moment de la rédaction de cet article), où il est disponible en téléchargement gratuit.

« « C’est bizarre de voir que toutes les innovations technologiques majeures de ces derniers temps relèvent de l’arbre de compétences Fraude », a écrit l’illustrateur Corey Brickley dans un fil de discussion X en réaction à une vidéo d’exemple de Deep-Live-Cam en action. Dans un autre article, il a écrit : « C’est sympa de penser à établir des mots de passe avec vos parents », faisant référence au potentiel d’outils similaires pouvant être utilisés pour tromper à distance, et au concept d’utiliser un mot de passe, partagé entre amis et famille, pour établir votre véritable identité.

Un exemple de Deep-Live-Cam en action, créé par l’utilisateur X João Fiadeiro. Il montre des clones de JD Vance, Hugh Grant, Mark Zuckerberg et George Clooney.

La technologie d’échange de visages n’est pas nouvelle. Le terme « deepfake » lui-même est né en 2017 d’un utilisateur de Reddit appelé « deepfakes » (combinaison des termes « deep learning » et « fakes »), qui a publié du contenu pornographique échangeant le visage d’un artiste avec celui d’une célébrité. À l’époque, la technologie était coûteuse et lente et ne fonctionnait pas en temps réel. Cependant, grâce à des projets comme Deep-Live-Cam, il devient plus facile pour tout le monde d’utiliser cette technologie à la maison avec un PC ordinaire et un logiciel gratuit.

Les dangers des deepfakes ne sont pas nouveaux non plus. En février, nous avons couvert un vol présumé à Hong Kong où quelqu’un s’est fait passer pour le directeur financier d’une entreprise lors d’un appel vidéo et est reparti avec plus de 25 millions de dollars. Les deepfakes audio ont donné lieu à d’autres fraudes financières ou à des systèmes d’extorsion. On peut s’attendre à ce que les cas de fraude vidéo à distance augmentent avec les logiciels de deepfake en temps réel facilement disponibles, et les célébrités ou les politiciens ne sont pas les seuls à être touchés.

Grâce à un logiciel de substitution de visage, quelqu’un pourrait prendre une photo de vous sur les réseaux sociaux et se faire passer pour quelqu’un qui ne connaît pas vraiment votre apparence et votre comportement, étant donné le besoin actuel d’imiter des manières, une voix, des cheveux, des vêtements et une structure corporelle similaires. Des techniques permettant de cloner ces aspects de l’apparence et de la voix existent également (en utilisant le clonage de la voix et la synthèse d’images vidéo par l’IA), mais elles n’ont pas encore atteint des implémentations photoréalistes fiables en temps réel. Mais avec le temps, cette technologie deviendra probablement également facilement disponible et facile à utiliser.

Comment ça marche ?

Comme de nombreux projets GitHub open source, Deep-Live-Cam regroupe plusieurs packages logiciels existants sous une nouvelle interface (et est lui-même un fork d’un projet antérieur appelé « roop »). Il détecte d’abord les visages dans les images source et cible (comme une image de vidéo en direct). Il utilise ensuite un modèle d’IA pré-entraîné appelé « inswapper » pour effectuer l’échange de visage réel et un autre modèle appelé GFPGAN pour améliorer la qualité des visages échangés en améliorant les détails et en corrigeant les artefacts qui se produisent pendant le processus d’échange de visage.

Une démo créée par le développeur Deep-Live-Cam montrant un échange de visage avec Elon Musk.

Une démo créée par le développeur Deep-Live-Cam montrant un échange de visage avec Elon Musk.

Le modèle inswapper, développé par un projet appelé InsightFace, peut deviner à quoi une personne (sur une photo fournie) pourrait ressembler en utilisant différentes expressions et sous différents angles, car il a été formé sur un vaste ensemble de données contenant des millions d’images faciales de milliers d’individus capturées sous différents angles, dans différentes conditions d’éclairage et avec diverses expressions.

Au cours de la formation, le réseau neuronal sous-jacent au modèle inswapper a développé une « compréhension » des structures faciales et de leur dynamique dans diverses conditions, notamment en apprenant à déduire la structure tridimensionnelle d’un visage à partir d’une image bidimensionnelle. Il est également devenu capable de séparer les caractéristiques spécifiques à l’identité, qui restent constantes sur différentes images de la même personne, des caractéristiques spécifiques à la pose qui changent avec l’angle et l’expression. Cette séparation permet au modèle de générer de nouvelles images de visage qui combinent l’identité d’un visage avec la pose, l’expression et l’éclairage d’un autre.

Deep-Live-Cam est loin d’être le seul projet de logiciel d’échange de visages existant. Un autre projet GitHub, appelé facefusion, utilise le même modèle d’IA d’échange de visages avec une interface différente. La plupart d’entre eux s’appuient fortement sur un réseau imbriqué de bibliothèques Python et d’apprentissage profond comme PyTorch, de sorte que Deep-Live-Cam n’est pas encore aussi simple qu’une installation en un clic. Mais il est probable que ce type de capacité d’échange de visages deviendra encore plus facile à installer au fil du temps et s’améliorera probablement en qualité à mesure que les gens itéreront et s’appuieront sur le travail des autres dans l’espace de développement d’IA open source.

Source-147