OpenAI dit qu’il peut cloner une voix à partir de seulement 15 secondes d’audio

OpenAI vient d’annoncer la mise au point d’un nouvel outil appelé Voice Engine. Il s’agit d’une technologie de clonage vocal capable d’imiter n’importe quel locuteur en analysant un échantillon audio de 15 secondes. La société affirme générer un « discours au son naturel » avec des « voix émotives et réalistes ».

La technologie est basée sur celle de l’entreprise et est en préparation depuis 2022. OpenAI utilise déjà une version de l’ensemble d’outils pour alimenter les voix prédéfinies disponibles dans l’API de synthèse vocale actuelle et la fonctionnalité de lecture à haute voix. Il existe de nombreux échantillons sur le blog officiel de la société et ils semblent étrangement proches de la réalité. Je vous encourage à les écouter et à imaginer les possibilités, bonnes et mauvaises.

OpenAI affirme que cette technologie est utile pour l’aide à la lecture, la traduction et pour aider ceux qui souffrent de problèmes d’élocution soudains ou dégénératifs. La société a proposé une solution qui a aidé un patient souffrant de problèmes d’élocution en créant un clone de moteur vocal extrait de l’audio enregistré pour un projet scolaire.

Malgré les avantages potentiels, les mauvais acteurs abuseraient certainement de cette technologie pour se livrer à de sérieuses bêtises de type deepfake. Dans cet esprit, Voice Engine n’est pas tout à fait prêt pour les heures de grande écoute, car il existe de sérieux problèmes de confidentialité qui doivent être résolus avant un déploiement complet.

OpenAI reconnaît que cette technologie comporte « des risques sérieux, qui sont particulièrement importants en période d’élections ». La société affirme qu’elle intègre les commentaires de « partenaires américains et internationaux du gouvernement, des médias, du divertissement, de l’éducation, de la société civile et au-delà » pour garantir le lancement du produit avec un minimum de risques. Tous les testeurs de préversion ont accepté les politiques d’utilisation d’OpenAI, qui interdisent l’usurpation d’identité d’une autre personne sans consentement ni droit légal.

De plus, toute personne utilisant cette technologie devra divulguer à son public que les voix sont générées par l’IA. OpenAI a mis en œuvre des mesures de sécurité, comme le filigrane pour retracer l’origine de tout audio et une « surveillance proactive » de la façon dont le système est utilisé. Lorsque le produit sera officiellement lancé, il y aura une « liste de voix interdites » qui détectera et empêchera les haut-parleurs générés par l’IA qui ressemblent trop à des personnalités.

Quant à savoir quand ce déploiement aura lieu, OpenAI reste discret. TechCrunch et il semble que cela va être sous-coté. Voice Engine pourrait coûter 15 $ pour un million de caractères, ce qui équivaut à environ 162 500 mots. C’est à peu près la durée du film de Stephen King. Le brillant. Cela semble certainement être un moyen économique de réaliser un livre audio. Les supports marketing font également référence à une version « HD » qui coûte deux fois plus cher, mais la société n’a pas détaillé comment cela fonctionnera.

OpenAI a fait de grands progrès cette semaine. Il vient d’annoncer un autre partenariat avec son meilleur ami Microsoft pour construire un supercalculateur basé sur l’IA appelé « Stargate ». Le projet coûterait la somme colossale de 100 milliards de dollars, .

Cet article contient des liens d’affiliation ; si vous cliquez sur un tel lien et effectuez un achat, nous pouvons gagner une commission.

Source-145