Meta a créé un modèle de langage IA qui (dans un changement de rythme rafraîchissant) n’est pas un clone ChatGPT. Le projet Massively Multilingual Speech (MMS) de la société peut reconnaître plus de 4 000 langues parlées et produire de la parole (texte-parole) dans plus de 1 100. Comme la plupart de ses autres projets d’IA annoncés publiquement, Meta est aujourd’hui en open source MMS pour aider à préserver la diversité linguistique et encourager les chercheurs à s’appuyer sur ses fondations. « Aujourd’hui, nous partageons publiquement nos modèles et notre code afin que d’autres membres de la communauté de la recherche puissent s’appuyer sur notre travail », a écrit la société. « A travers ce travail, nous espérons apporter une petite contribution pour préserver l’incroyable diversité linguistique du monde. »
La reconnaissance vocale et les modèles de synthèse vocale nécessitent généralement une formation sur des milliers d’heures d’audio avec des étiquettes de transcription associées. (Les étiquettes sont cruciales pour l’apprentissage automatique, permettant aux algorithmes de catégoriser et de « comprendre » correctement les données.) Mais pour les langues qui ne sont pas largement utilisées dans les pays industrialisés – dont beaucoup risquent de disparaître dans les décennies à venir – « ce les données n’existent tout simplement pas », comme le dit Meta.
Meta a utilisé une approche non conventionnelle pour collecter des données audio : puiser dans des enregistrements audio de textes religieux traduits. « Nous nous sommes tournés vers des textes religieux, tels que la Bible, qui ont été traduits dans de nombreuses langues différentes et dont les traductions ont été largement étudiées pour la recherche de traduction linguistique basée sur le texte », a déclaré la société. « Ces traductions ont des enregistrements audio accessibles au public de personnes lisant ces textes dans différentes langues. » En intégrant les enregistrements non étiquetés de la Bible et de textes similaires, les chercheurs de Meta ont augmenté les langues disponibles du modèle à plus de 4 000.
Si vous êtes comme moi, cette approche peut vous faire froncer les sourcils à première vue, car cela ressemble à une recette pour un modèle d’IA fortement biaisé en faveur des visions du monde chrétiennes. Mais Meta dit que ce n’est pas le cas. « Bien que le contenu des enregistrements audio soit religieux, notre analyse montre que cela ne biaise pas le modèle pour produire un langage plus religieux », a écrit Meta. « Nous pensons que c’est parce que nous utilisons une approche de classification temporelle connexionniste (CTC), qui est beaucoup plus contrainte par rapport aux grands modèles de langage (LLM) ou aux modèles séquence à séquence pour la reconnaissance vocale. » De plus, bien que la plupart des enregistrements religieux soient lus par des locuteurs masculins, cela n’a pas non plus introduit de préjugé masculin – performant aussi bien dans les voix féminines que masculines.
Après avoir formé un modèle d’alignement pour rendre les données plus utilisables, Meta a utilisé wav2vec 2.0, le modèle « d’apprentissage de la représentation vocale auto-supervisé » de la société, qui peut s’entraîner sur des données non étiquetées. La combinaison de sources de données non conventionnelles et d’un modèle vocal auto-supervisé a donné des résultats impressionnants. « Nos résultats montrent que les modèles de parole massivement multilingue fonctionnent bien par rapport aux modèles existants et couvrent 10 fois plus de langues. » Plus précisément, Meta a comparé le MMS au Whisper d’OpenAI, et il a dépassé les attentes. « Nous avons constaté que les modèles entraînés sur les données de la parole massivement multilingue atteignent la moitié du taux d’erreur de mot, mais la parole massivement multilingue couvre 11 fois plus de langues. »
Meta prévient que ses nouveaux modèles ne sont pas parfaits. « Par exemple, il existe un risque que le modèle de synthèse vocale puisse mal transcrire certains mots ou phrases », a écrit la société. « Selon le résultat, cela pourrait entraîner un langage offensant et/ou inexact. Nous continuons de croire que la collaboration au sein de la communauté de l’IA est essentielle au développement responsable des technologies de l’IA. »
Maintenant que Meta a publié le MMS pour la recherche open source, il espère pouvoir inverser la tendance de la technologie à réduire les langues du monde à 100 ou moins le plus souvent pris en charge par Big Tech. Il voit un monde où la technologie d’assistance, le TTS et même la technologie VR / AR permettent à chacun de parler et d’apprendre dans sa langue maternelle. Il a déclaré: « Nous envisageons un monde où la technologie a l’effet inverse, encourageant les gens à garder leurs langues vivantes car ils peuvent accéder à l’information et utiliser la technologie en parlant dans leur langue préférée. »