La dernière suite d’IA de Meta rend la traduction vocale plus fluide et plus expressive

En août dernier, Meta a dévoilé son modèle de traduction d’IA multimodale, SeamlessM4T, qui prend en charge près de 100 langues pour le texte et 36 pour la parole. Avec une architecture « v2 » mise à jour, le géant de la technologie développe désormais cet outil pour rendre les traductions conversationnelles plus spontanées et plus expressives – cette dernière étant la clé manquante pour une conversation authentique dans plusieurs langues.

La première des deux nouvelles fonctionnalités est « SeamlessExpressive » qui, comme son nom l’indique, transfère vos expressions vers votre discours traduit. Ceux-ci incluent votre ton, votre volume, votre ton émotionnel (excitation, tristesse ou murmures), votre débit de parole et vos pauses. Considérant à quel point les discours traduits avaient toujours semblé robotiques jusqu’à présent, cette avancée pourrait potentiellement changer la donne, à la fois dans notre vie quotidienne et également dans la production de contenu. Les langues prises en charge incluent l’anglais, l’espagnol, l’allemand, le français, l’italien et le chinois, bien qu’il manque l’italien et le chinois sur la page de démonstration au moment de la rédaction de cet article.

La deuxième fonctionnalité est « SeamlessStreaming », qui commence à traduire un discours pendant que l’orateur parle encore, permettant ainsi aux autres d’entendre une traduction plus rapidement. Il y a encore une courte latence d’un peu moins de deux secondes, mais au moins vous n’aurez pas à attendre que quelqu’un termine une phrase. Selon Meta, le défi ici est que différentes langues ont des structures de phrases différentes, il a donc dû développer un algorithme dédié à l’étude de l’entrée audio partielle, afin de décider s’il y a suffisamment de contexte pour commencer à générer une sortie traduite, ou s’il faut continuer à écouter. .

Le dernier développement de Meta sur cette suite « Seamless Communication » semble être impressionnant, plus encore que les outils d’interprétation mobiles proposés par Google et Samsung. On ne sait pas quand le public pourra utiliser ces nouvelles fonctionnalités, mais j’imagine déjà Meta les intégrer un jour dans ses lunettes intelligentes, les rendant encore plus pratiques que jamais.

Source-145