Le modèle d’IA de clonage vocal d’OpenAI n’a besoin que d’un échantillon de 15 secondes pour fonctionner

OpenAI offre un accès limité à une plate-forme de génération de texte-voix qu’elle a développée, appelée Voice Engine, qui peut créer une voix synthétique basée sur un extrait de 15 secondes de la voix d’une personne. La voix générée par l’IA peut lire des invites textuelles sur commande dans la même langue que l’orateur ou dans un certain nombre d’autres langues. « Ces déploiements à petite échelle contribuent à éclairer notre approche, nos garanties et notre réflexion sur la manière dont Voice Engine pourrait être utilisé à bon escient dans divers secteurs », OpenAI dit dans son article de blog.

Les entreprises ayant accès comprennent la société de technologie éducative Age of Learning, la plateforme de narration visuelle HeyGen, le fabricant de logiciels de santé de première ligne Dimagi, le créateur d’applications de communication IA Livox et le système de santé Lifespan.

Dans ces échantillons publiés par OpenAI, vous pouvez entendre ce que Âge d’apprentissage a fait avec la technologie pour générer du contenu de voix off pré-scénarisé, ainsi que pour lire des « réponses personnalisées en temps réel » aux étudiants écrites par GPT-4.

Tout d’abord, l’audio de référence en anglais :

Et voici trois clips audio générés par l’IA basés sur cet échantillon,

OpenAI a déclaré avoir commencé à développer Voice Engine fin 2022 et que la technologie a déjà alimenté des voix prédéfinies pour l’API de synthèse vocale et la fonction de lecture à haute voix de ChatGPT. Dans une interview avec TechCrunch, Jeff Harris, membre de l’équipe produit d’OpenAI pour Voice Engine, a déclaré que le modèle avait été formé sur « un mélange de données sous licence et accessibles au public ». OpenAI a déclaré à la publication que le modèle ne serait disponible que pour une dizaine de développeurs.

La génération de texte en audio par l’IA est un domaine de l’IA générative qui continue d’évoluer. Alors que la plupart se concentrent sur les sons instrumentaux ou naturels, moins nombreux se sont concentrés sur la génération de voix, en partie à cause des questions citées par OpenAI. Certains noms dans le domaine incluent des sociétés comme Podcastle et ElevenLabs, qui fournissent une technologie et des outils de clonage vocal IA. Bordcast exploré l’année dernière.

Selon OpenAI, ses partenaires ont accepté de respecter ses politiques d’utilisation qui stipulent qu’ils n’utiliseront pas Voice Generation pour usurper l’identité de personnes ou d’organisations sans leur consentement. Cela exige également que les partenaires obtiennent le « consentement explicite et éclairé » de l’orateur d’origine, ne créent pas de moyens permettant aux utilisateurs individuels de créer leurs propres voix et divulguent aux auditeurs que les voix sont générées par l’IA. OpenAI a également ajouté un filigrane aux clips audio pour retracer leur origine et surveiller activement la façon dont l’audio est utilisé.

OpenAI a suggéré plusieurs mesures qui, selon elle, pourraient limiter les risques liés à des outils comme ceux-ci, notamment la suppression progressive de l’authentification vocale pour accéder aux comptes bancaires, des politiques visant à protéger l’utilisation de la voix des personnes dans l’IA, une meilleure éducation sur les deepfakes de l’IA et le développement de systèmes de suivi. de contenu IA.

source site-132