La nouvelle IA « Voicebox » de Meta est un outil de synthèse vocale qui apprend comme ChatGPT

Meta AI récemment dévoilé un générateur de synthèse vocale (TTS) « révolutionnaire » qui, selon lui, produit des résultats jusqu’à 20 fois plus rapides que les modèles d’intelligence artificielle de pointe avec des performances comparables.

Le nouveau système, baptisé Voicebox, évite l’architecture TTS traditionnelle au profit d’un modèle plus proche du ChatGPT d’OpenAI ou du Bard de Google.

L’une des principales différences entre Voicebox et des modèles TTS similaires, tels que ElevenLabs Prime Voice AI, est que l’offre de Meta peut se généraliser grâce à l’apprentissage en contexte.

Tout comme ChatGPT ou d’autres modèles de transformateurs, Voicebox utilise des ensembles de données de formation à grande échelle. Les efforts précédents pour utiliser des trésors massifs de données audio ont entraîné des sorties audio gravement dégradées. Pour cette raison, la plupart des systèmes TTS utilisent de petits ensembles de données hautement organisés et étiquetés.

Meta surmonte cette limitation grâce à un nouveau schéma de formation qui abandonne les étiquettes et la conservation pour une architecture capable de «remplir» les informations audio.

En tant que méta IA Mets-le dans un article de blog du 16 juin, Voicebox est le « premier modèle qui peut se généraliser à des tâches de génération de parole pour lesquelles il n’a pas été spécifiquement formé avec des performances de pointe ».

Cela permet à Voicebox de traduire le texte en parole, de supprimer les bruits indésirables en synthétisant la parole de remplacement et même d’appliquer la voix d’un locuteur à différentes sorties linguistiques.

Selon un article de recherche publié par Meta, son système Voicebox préformé peut accomplir tout cela en utilisant uniquement le texte de sortie souhaité et un clip audio de trois secondes.

L’arrivée d’une génération de discours robuste survient à un moment particulièrement sensible, alors que les entreprises de médias sociaux continuent de lutter contre la modération et qu’aux États-Unis, une élection présidentielle imminente menace de tester à nouveau les limites de la détection de la désinformation en ligne.

L’ancien président américain Donald Trump, par exemple, fait actuellement face à des allégations selon lesquelles il aurait mal géré des documents gouvernementaux confidentiels après avoir quitté ses fonctions. Parmi les prétendues preuves cité dans l’affaire contre lui se trouvent des enregistrements audio dans lesquels il aurait admis des actes répréhensibles potentiels.

Bien qu’il n’y ait actuellement aucune indication que l’ancien président ait l’intention de nier le contenu décrit dans les fichiers audio, son cas illustre que l’intégrité des données réside au cœur du système juridique américain et, par extension, de sa démocratie.

Voicebox n’est pas le premier outil de ce type, mais il semble être parmi les plus robustes. En tant que tel, Meta a développé un outil pour déterminer si la parole a été générée par celui-ci, et la société affirme qu’il peut « détecter de manière triviale » la différence entre le vrai et le faux audio. Par le billet de blog :

« Comme pour d’autres nouvelles innovations puissantes en matière d’IA, nous reconnaissons que cette technologie présente un potentiel d’utilisation abusive et de dommages involontaires. Dans notre article, nous détaillons comment nous avons construit un classificateur très efficace qui peut faire la distinction entre la parole authentique et l’audio généré avec Voicebox pour atténuer ces éventuels risques futurs.

Dans le monde de la crypto-monnaie, l’IA est devenue aussi partie intégrante des opérations quotidiennes de la plupart des entreprises qu’Internet ou l’électricité. Les plus grands échanges s’appuient sur des chatbots IA pour les interactions avec les clients et l’analyse des sentiments, et les robots commerciaux sont devenus monnaie courante.

En rapport: Bybit se connecte à ChatGPT pour les outils de trading alimentés par l’IA

L’avènement de systèmes de synthèse vocale robustes tels que Voicebox, combiné au trading automatisé, pourrait aider à combler un fossé pour les futurs commerçants de crypto-monnaie qui s’appuient sur des systèmes TTS qui, actuellement, peuvent avoir du mal avec le jargon crypto ou le support multilingue.