Le dernier ensemble de données de Meta entraînera les moteurs de reconnaissance vocale sur des « grappes » de locuteurs

Nous sommes en 2023 et, désolé, Siri n’a toujours pas compris cela. Malgré le tsunami d’avancées dont ont bénéficié les systèmes d’IA générative ces derniers mois, les assistants synthétiques de nos appareils mobiles restent presque aussi malentendants qu’ils l’étaient en 2011. Un ensemble de données nouvellement développé par Meta AI promet cependant d’améliorer les performances de ces appareils. outils de reconnaissance automatique de la parole (ASR) en regroupant la parole au « niveau de l’énoncé ».

Meta cherche depuis longtemps à améliorer les performances de ses ASR, en leur apprenant à s’entraîner sans l’aide de transcriptions, à reconnaître plus de 4 000 langues parlées et même à lire sur les lèvres à un niveau de compétence supérieur à celui des experts humains. Cependant, de nombreux ensembles de données utilisés pour former les modèles ASR sont organisés par groupe démographique – groupe d’âge, sexe, nationalité, accent anglais – ce qui limite la variation des prononciations sur lesquelles les modèles sont formés, entravant finalement leur fonction de compréhension d’un large éventail d’utilisateurs. .

Pour contourner ce problème, Meta AI a développé un ensemble de données qui s’appuie plutôt sur une méthode de regroupement d’énoncés. « Au lieu de diviser un ensemble de données en fonction des informations démographiques des locuteurs… notre algorithme proposé regroupe la parole au niveau de l’énoncé », a expliqué l’équipe Meta AI dans le billet de blog de mercredi. « Un seul groupe contiendra des énoncés similaires d’un groupe diversifié de locuteurs. Nous pouvons ensuite former notre modèle à l’aide des différents clusters et utiliser des ensembles de données d’équité pour mesurer l’impact du modèle sur les résultats dans différents groupes démographiques. »

L’ensemble de données résultant de Meta comprend un peu plus de 27 000 énoncés de commande collectés auprès de 595 volontaires américains rémunérés. Leurs énoncés s’articulent autour de sept thèmes principaux – musique, capture, utilitaires, contrôle des notifications, messagerie, appels et dictée – que d’autres chercheurs peuvent ensuite utiliser pour former leurs propres modèles et assistants numériques. Les invites incluaient de demander aux orateurs comment ils feraient une recherche vocale pour une chanson ou de faire des plans avec des amis et de décider où se rencontrer.

Pour évaluer ce nouveau système, Meta a d’abord formé un modèle sur des vidéos Facebook en anglais accessibles au public. Les chercheurs ont ensuite évalué ce modèle à l’aide de deux autres ensembles de données : Casual Conversations v1, que Meta a publié en 2021, et un « ensemble de données anonymisées collectées auprès d’un fournisseur de données pour ASR », qui comprend 48 000 énoncés prononcés par 867 individus.

Les premiers résultats se sont avérés prometteurs, avec des améliorations des performances du modèle « sur tous les groupes démographiques de nos ensembles de données d’évaluation, bien que les gains les plus importants concernent de loin une plus grande inclusion des accents », selon le blog. Dans l’ensemble, les performances de l’ASR ont augmenté de 10 % en utilisant la méthode de clustering, avec des gains importants provenant également de la foule des 66 à 85 ans, un groupe démographique traditionnellement sous-représenté dans l’espace de la commande vocale.

« Notre algorithme proposé fait partie de l’objectif à long terme de Meta sur l’IA responsable et n’est qu’une partie de notre approche holistique pour résoudre les problèmes d’équité », ont écrit les chercheurs. Pour l’avenir, l’équipe envisage d’adapter le système à d’autres langues.

Source-145