Le nouveau traducteur multimodal de Meta utilise un seul modèle pour parler 100 langues

Bien qu’elle ne soit pas encore prête à inaugurer l’avenir Doolittle que nous attendions tous, les méthodes modernes de traduction de l’IA s’avèrent plus que suffisantes pour transformer avec précision les quelque 6 500 systèmes de communication parlés et écrits de l’humanité entre eux. Le problème est que chacun de ces modèles a tendance à ne faire qu’une ou deux tâches très bien – traduire et convertir du texte en parole, de la parole en texte ou entre l’un ou l’autre des deux ensembles – vous finissez donc par devoir écraser un tas de modèles par-dessus. les uns des autres pour créer la performance généralisée observée dans Google Translate ou la myriade de services linguistiques de Facebook.

Il s’agit d’un processus informatique intensif, c’est pourquoi Meta a développé un modèle unique capable de tout faire. SeamlessM4T est « un modèle multilingue et multitâche fondamental qui traduit et transcrit de manière transparente la parole et le texte », lit-on sur le blog de Meta de mardi. Il peut traduire entre près de 100 langues pour les fonctions parole-texte et texte-texte, la parole-parole et la synthèse vocale prennent en charge ces mêmes langues en entrée et en sortie dans l’une des 36 autres langues, y compris l’anglais.

Dans son article de blog, l’équipe de recherche de Meta note que SeamlessM4T « améliore considérablement[s] performances pour les langues à ressources faibles et moyennes que nous prenons en charge », tout en conservant « de solides performances sur les langues à ressources élevées, telles que l’anglais, l’espagnol et l’allemand. » Meta a construit SeamlessM4T à partir de son architecture de modèle UnY multitâche existante basée sur PyTorch, qui déjà effectue nativement les différentes traductions modales ainsi que la reconnaissance vocale automatique. Il utilise le système BERT 2.0 pour l’encodage audio, décomposant les entrées en jetons de composants pour analyse, et un vocodeur d’unité HiFi-GAN pour générer des réponses parlées.

Meta a également organisé un énorme corpus parallèle open source de parole-parole et de parole-texte, baptisé SeamlessAlign. L’entreprise a extrait « des dizaines de milliards de phrases » et « quatre millions d’heures » de parole à partir de référentiels accessibles au public pour « aligner automatiquement plus de 443 000 heures de parole avec des textes et créer environ 29 000 heures d’alignement parole-parole », selon le blog. Lors des tests de robustesse, SeamlessM4T aurait surpassé son prédécesseur (à la pointe de la technologie) contre les bruits de fond et les variations de style de haut-parleur de 37 % et 48 %, respectivement.

Comme pour la plupart de ses précédents efforts de traduction automatique – qu’il s’agisse de Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) ou de l’ambitieux projet No Language Left Behind (NLLB) – SeamlessM4T est open source. « Nous pensons que SeamlessM4T constitue une avancée importante dans la quête de la communauté de l’IA vers la création de systèmes multitâches universels », a écrit l’équipe. « Fidèles à notre approche de la science ouverte, nous sommes ravis de partager publiquement notre modèle pour permettre aux chercheurs et aux développeurs de s’appuyer sur cette technologie. Si vous souhaitez travailler vous-même avec SeamlessM4T, rendez-vous sur GitHub pour télécharger le modèle, les données de formation et la documentation.

Source-145