Imaginez le scénario suivant. Un téléphone sonne. Une employée de bureau y répond et entend son patron, pris de panique, lui dire qu’elle a oublié de transférer de l’argent au nouvel entrepreneur avant de partir pour la journée et qu’il a besoin de lui pour le faire. Elle lui donne les informations de virement bancaire, et avec l’argent transféré, la crise a été évitée.
Le travailleur s’assoit sur sa chaise, respire profondément et regarde son patron franchir la porte. La voix à l’autre bout de l’appel n’était pas son patron. En fait, ce n’était même pas un humain. La voix qu’il a entendue était celle d’un deepfake audio, un échantillon audio généré par une machine conçu pour ressembler exactement à son patron.
Des attaques comme celle-ci utilisant de l’audio enregistré se sont déjà produites, et les deepfakes audio conversationnels ne sont peut-être pas loin.
Les deepfakes, à la fois audio et vidéo, n’ont été possibles qu’avec le développement de technologies sophistiquées d’apprentissage automatique ces dernières années. Les deepfakes ont apporté avec eux un nouveau niveau d’incertitude autour des médias numériques. Pour détecter les deepfakes, de nombreux chercheurs se sont tournés vers l’analyse des artefacts visuels – petits problèmes et incohérences – trouvés dans les deepfakes vidéo.
Les deepfakes audio représentent potentiellement une menace encore plus grande, car les gens communiquent souvent verbalement sans vidéo, par exemple, via des appels téléphoniques, la radio et des enregistrements vocaux. Ces communications vocales élargissent considérablement les possibilités pour les attaquants d’utiliser des deepfakes.
Pour détecter les deepfakes audio, nous et nos collègues chercheurs de l’Université de Floride avons développé une technique qui mesure les différences acoustiques et dynamiques des fluides entre les échantillons de voix créés organiquement par des locuteurs humains et ceux générés synthétiquement par des ordinateurs.
Voix organiques vs voix synthétiques
Les humains vocalisent en forçant l’air sur les différentes structures du tractus vocal, y compris les cordes vocales, la langue et les lèvres. En réarrangeant ces structures, vous modifiez les propriétés acoustiques de votre appareil vocal, ce qui vous permet de créer plus de 200 sons ou phonèmes distincts. Cependant, l’anatomie humaine limite fondamentalement le comportement acoustique de ces différents phonèmes, ce qui se traduit par une gamme relativement restreinte de sons corrects pour chacun.
En revanche, les deepfakes audio sont créés en permettant d’abord à un ordinateur d’écouter les enregistrements audio d’un locuteur victime ciblé. Selon les techniques exactes utilisées, l’ordinateur peut avoir besoin d’écouter aussi peu que 10 à 20 secondes d’audio. Cet audio est utilisé pour extraire des informations clés sur les aspects uniques de la voix de la victime.
L’attaquant sélectionne une phrase pour que le deepfake s’exprime, puis, à l’aide d’un algorithme de synthèse vocale modifié, génère un échantillon audio qui ressemble à la victime prononçant la phrase sélectionnée. Ce processus de création d’un seul échantillon audio deepfake peut être accompli en quelques secondes, offrant potentiellement aux attaquants suffisamment de flexibilité pour utiliser la voix deepfake dans une conversation.
Détection des deepfakes audio
La première étape pour différencier la parole produite par les humains de la parole générée par les deepfakes est de comprendre comment modéliser acoustiquement le conduit vocal. Heureusement, les scientifiques disposent de techniques pour estimer le son d’une personne, ou d’un être tel qu’un dinosaure, en se basant sur des mesures anatomiques de son appareil vocal.
Nous avons fait l’inverse. En inversant plusieurs de ces mêmes techniques, nous avons pu extraire une approximation du conduit vocal d’un locuteur pendant un segment de discours. Cela nous a permis de scruter efficacement l’anatomie de l’orateur qui a créé l’échantillon audio.
À partir de là, nous avons émis l’hypothèse que les échantillons audio deepfake ne seraient pas limités par les mêmes limitations anatomiques que les humains. En d’autres termes, l’analyse d’échantillons audio deepfakes simulait des formes de voies vocales qui n’existent pas chez les humains.
Les résultats de nos tests ont non seulement confirmé notre hypothèse, mais ont révélé quelque chose d’intéressant. Lors de l’extraction des estimations des voies vocales à partir de l’audio deepfake, nous avons constaté que les estimations étaient souvent comiquement incorrectes. Par exemple, il était courant que l’audio deepfake se traduise par des voies vocales ayant le même diamètre relatif et la même consistance qu’une paille à boire, contrairement aux voies vocales humaines, qui sont beaucoup plus larges et de forme plus variable.
Cette prise de conscience démontre que le deepfake audio, même lorsqu’il est convaincant pour les auditeurs humains, est loin d’être impossible à distinguer de la parole générée par l’homme. En estimant l’anatomie responsable de la création du discours observé, il est possible d’identifier si l’audio a été généré par une personne ou un ordinateur.
Pourquoi c’est important
Le monde d’aujourd’hui est défini par l’échange numérique de médias et d’informations. Tout, des actualités aux divertissements en passant par les conversations avec des êtres chers, se passe généralement via des échanges numériques. Même à leurs débuts, la vidéo et l’audio deepfake minent la confiance que les gens ont dans ces échanges, limitant ainsi leur utilité.
Si le monde numérique doit rester une ressource essentielle d’informations dans la vie des gens, des techniques efficaces et sécurisées pour déterminer la source d’un échantillon audio sont cruciales.
Logan Blue est doctorant en informatique et sciences et ingénierie de l’information à l’Université de Floride, et Patrick Traynor est professeur d’informatique et de sciences et ingénierie de l’information à l’Université de Floride..
Cet article est republié de The Conversation sous une licence Creative Commons. Lire l’article d’origine.