Microsoft a présenté ses dernières recherches sur l’IA de synthèse vocale avec un modèle appelé VALL-E qui peut simuler la voix de quelqu’un à partir d’un échantillon audio de trois secondes seulement, Ars Technica a signalé. Le discours peut non seulement correspondre au timbre mais aussi au ton émotionnel de l’orateur, et même à l’acoustique d’une pièce. Il pourrait un jour être utilisé pour des applications de synthèse vocale personnalisées ou haut de gamme, bien que, comme les deepfakes, il comporte des risques d’utilisation abusive.
VALL-E est ce que Microsoft appelle un « modèle de langage de codec neuronal ». Il est dérivé de l’encodec de réseau neuronal de compression alimenté par l’IA de Meta, générant de l’audio à partir de la saisie de texte et de courts échantillons du locuteur cible.
Dans un article, les chercheurs décrivent comment ils ont formé VALL-E sur 60 000 heures de discours en anglais de plus de 7 000 locuteurs sur la bibliothèque audio LibriLight de Meta. La voix qu’il tente d’imiter doit correspondre étroitement à une voix dans les données d’entraînement. Si tel est le cas, il utilise les données d’entraînement pour déduire à quoi ressemblerait le locuteur cible s’il prononçait le texte souhaité.
L’équipe montre exactement à quel point cela fonctionne sur la page VALL-E Github. Pour chaque phrase qu’ils veulent que l’IA « parle », ils ont une invite de trois secondes du locuteur à imiter, une « vérité fondamentale » du même locuteur disant une autre phrase à titre de comparaison, une synthèse vocale conventionnelle « de base » synthèse et le sample VALL-E à la fin.
Les résultats sont mitigés, certains sonnant comme des machines et d’autres étant étonnamment réalistes. Le fait qu’il conserve le ton émotionnel des échantillons originaux est ce qui vend ceux qui fonctionnent. Il correspond également fidèlement à l’environnement acoustique, donc si l’orateur a enregistré sa voix dans une salle d’écho, la sortie VALL-E sonne également comme si elle provenait du même endroit.
Pour améliorer le modèle, Microsoft prévoit d’augmenter ses données de formation « pour améliorer les performances du modèle dans la prosodie, le style de parole et les perspectives de similarité des locuteurs ». Il explore également des moyens de réduire les mots qui ne sont pas clairs ou manqués.
Microsoft a choisi de ne pas rendre le code open source, peut-être en raison des risques inhérents à l’IA qui peuvent mettre des mots dans la bouche de quelqu’un. Il a ajouté qu’il suivrait ses « Microsoft AI Principals » pour tout développement ultérieur. « Étant donné que VALL-E pourrait synthétiser la parole qui maintient l’identité du locuteur, il peut comporter des risques potentiels d’utilisation abusive du modèle, tels que l’usurpation d’identité vocale ou l’usurpation d’identité », a écrit la société dans la section « Impacts plus larges » de sa conclusion.
Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation. Tous les prix sont corrects au moment de la publication.