Meta a publié un nouveau modèle de synthèse vocale capable de traduire près de 100 langues appelé SeamlessM4T, alors que la société continue d’essayer de créer un traducteur universel.
Sans coutureM4T, qui signifie Massively Multilingual and Multimodal Machine Translation, qui, selon la société, peut traduire la parole en texte et le texte en texte dans près de 100 langues. Pour les actions de synthèse vocale et de synthèse vocale, il reconnaît 100 langues d’entrée et les convertit en 35 langues de sortie.
Il est publié sous un Creative Commons CC BY-NC 4.0 licence, permettant aux chercheurs d’y effectuer des itérations.
Parallèlement à SeamlessM4T, Meta a également publié les métadonnées de son ensemble de données de traduction ouvert SeamlessAlign.
« Construire un traducteur de langue universel, comme le poisson Babel fictif dans Le Guide du voyageur galactiqueest un défi car les systèmes parole-parole et parole-texte existants ne couvrent qu’une petite fraction des langues du monde », a déclaré Meta.
Le Guide de l’auto-stoppeur Babel Fish, tel que conçu par l’auteur Douglas Adams, est un poisson que vous pouvez placer dans votre oreille pour comprendre instantanément n’importe quelle langue. Si tu es un Docteur Who fan, vous pouvez comparer l’outil de Meta à une matrice de traduction dans le TARDIS qui transforme même les mots étrangers en anglais.
Meta a déclaré que SeamlessM4T représente « une avancée significative » car ce nouveau modèle effectue l’intégralité de la tâche de traduction en une seule fois, contrairement à d’autres grands modèles de traduction qui divisent la traduction entre différents systèmes.
L’une des caractéristiques intéressantes de SeamlessM4T, s’il peut fonctionner correctement, est sa prétendue capacité à reconnaître quand un locuteur change de code ou quand quelqu’un passe d’une langue à l’autre ou plus dans une phrase. Par exemple, Meta a démontré dans une vidéo que le modèle fait immédiatement la différence entre l’hindi, le telugu et l’anglais. Je n’ai pas testé le modèle, mais je change fréquemment de code entre mes deux langues maternelles (philippin et anglais) – comme le font la plupart des gens qui parlent des langues différentes – et d’après mon expérience personnelle, ce n’est pas quelque chose que la plupart des logiciels de reconnaissance vocale d’IA reprennent. rapidement.
SeamlessM4T s’appuie sur les modèles de traduction précédents de Meta. L’année dernière, Meta a publié son modèle de traduction automatique texte-texte No Language Left Behind, qui prend en charge 200 langues. Elle a développé SpeechMatrix, un ensemble de données pour la traduction parole-parole multilingue et Massively Multilingual Speech pour la reconnaissance vocale. Meta a fait une démonstration de son traducteur vocal universel l’année dernière, convertissant le hokkien parlé, une langue largement utilisée en Chine qui n’a pas de système d’écriture officiel, en anglais.
La traduction linguistique est importante pour des entreprises comme Meta, qui emploient des milliers de personnes pour modérer un flot de publications sur Facebook et Instagram dans différentes langues. Très souvent, les langues non majeures ont des équipes plus petites et finissent par s’appuyer sur une modération automatisée qui fonctionne mal avec ces langues. L’IA, si elle a accès à un ensemble de données de ces langues plus petites, peut être un outil permettant à des entreprises comme Meta d’améliorer la modération.
Pour créer SeamlessM4T, Meta a déclaré avoir repensé sa boîte à outils de modélisation de séquence Fairseq pour créer des modèles plus légers et gérer plus d’informations.
Lors du développement de SeamlessM4T, Meta a déclaré avoir construit un système qui identifie les mots toxiques ou sensibles. Meta définit les mots toxiques comme des cas où la « traduction peut inciter à la haine, à la violence, aux grossièretés ou aux abus ». L’objectif est de pouvoir détecter quand la traduction de sortie introduit une toxicité qui n’était pas présente dans le matériel d’origine.
«Nous avons filtré une toxicité déséquilibrée dans les données d’entraînement. Si l’entrée ou la sortie contenaient des quantités différentes de toxicité, nous supprimions cette séquence d’entraînement », a déclaré Meta.
Les chercheurs ont également tenté de nettoyer les ensembles de données qui traduisent mal certains grossièretés afin de détecter plus précisément quand ils sont utilisés.
Meta affirme reconnaître également les préjugés sexistes dans les langues et affirme que le modèle peut quantifier les préjugés sexistes dans les traductions. SeamlessM4T peut vérifier si la phrase utilise une forme genrée d’un mot, par exemple doctorat en espagnol, et attribuez un pronom féminin dans une langue cible sans grammaire de genre équivalente si nécessaire. En abordant la question de la même manière que la toxicité, Meta a déclaré que SeamlessM4T compte le nombre de fois qu’une traduction ajoute des mots sexués à des termes qui n’étaient pas spécifiquement sexués dans la langue d’origine, c’est-à-dire qu’elle suppose automatiquement que le médecin est un homme alors qu’il n’y a aucune distinction de genre dans la langue anglaise.
Meta a publié plusieurs de ses modèles d’IA aux développeurs et aux chercheurs de manière plus ou moins open source. Il a récemment publié AudioCraft, un code permettant la génération de texte en son. Meta a également donné accès à son grand modèle de langage Llama 2.