La synthèse vocale a parcouru un long chemin depuis le jouet Speak & Spell de 1978, qui a autrefois séduit les gens avec sa capacité de pointe à lire des mots à haute voix à l’aide d’une voix électronique. Désormais, grâce à des modèles d’IA d’apprentissage profond, les logiciels peuvent non seulement créer des voix au son réaliste, mais également imiter de manière convaincante des voix existantes à l’aide de petits échantillons audio.
Dans le même esprit, OpenAI vient d’annoncer Voice Engine, un modèle d’IA de synthèse vocale permettant de créer des voix synthétiques basées sur un segment de 15 secondes d’audio enregistré. Il a fourni des échantillons audio du moteur vocal en action sur son site Web.
Une fois une voix clonée, un utilisateur peut saisir du texte dans le moteur vocal et obtenir un résultat vocal généré par l’IA. Mais OpenAI n’est pas encore prêt à diffuser largement sa technologie. La société avait initialement prévu de lancer un programme pilote permettant aux développeurs de s’inscrire à l’API Voice Engine au début du mois. Mais après une réflexion plus approfondie sur les implications éthiques, l’entreprise a décidé de revoir à la baisse ses ambitions pour le moment.
« Conformément à notre approche de la sécurité de l’IA et à nos engagements volontaires, nous choisissons de prévisualiser cette technologie, mais de ne pas la diffuser à grande échelle pour le moment », écrit la société. « Nous espérons que cette avant-première de Voice Engine soulignera à la fois son potentiel et motivera également la nécessité de renforcer la résilience sociétale face aux défis posés par des modèles génératifs toujours plus convaincants. »
La technologie de clonage vocal en général n’est pas particulièrement nouvelle : nous avons couvert plusieurs modèles de synthèse vocale d’IA depuis 2022, et la technologie est active dans la communauté open source avec des packages comme OpenVoice et XTTSv2. Mais l’idée selon laquelle OpenAI s’apprête à permettre à quiconque d’utiliser sa marque particulière de technologie vocale est remarquable. Et d’une certaine manière, la réticence de l’entreprise à le publier dans son intégralité pourrait être l’histoire la plus importante.
OpenAI affirme que les avantages de sa technologie vocale incluent la fourniture d’une aide à la lecture grâce à des voix naturelles, permettant une portée mondiale aux créateurs en traduisant le contenu tout en préservant les accents natifs, en aidant les individus non verbaux avec des options de parole personnalisées et en aidant les patients à retrouver leur propre voix après. troubles de la parole.
Mais cela signifie également que toute personne disposant de 15 secondes de la voix enregistrée d’une personne pourrait effectivement la cloner, ce qui a des implications évidentes en termes d’utilisation abusive potentielle. Même si OpenAI ne diffuse jamais largement son moteur vocal, la possibilité de cloner des voix a déjà causé des problèmes dans la société à travers des escroqueries téléphoniques où quelqu’un imite la voix d’un être cher et des appels automatisés de campagne électorale mettant en vedette des voix clonées de politiciens comme Joe Biden.
En outre, des chercheurs et des journalistes ont montré que la technologie de clonage vocal peut être utilisée pour pirater des comptes bancaires utilisant l’authentification vocale (comme l’identification vocale de Chase), ce qui a incité le sénateur Sherrod Brown (démocrate de l’Ohio), président du Sénat américain. La Commission des banques, du logement et des affaires urbaines enverra une lettre aux PDG de plusieurs grandes banques en mai 2023 pour s’enquérir des mesures de sécurité que les banques prennent pour contrer les risques liés à l’IA.