ChatGPT est peut-être le sujet brûlant du moment, mais Google travaille depuis des années sur le développement de modèles d’IA. L’un de ces projets est un modèle de langage d’IA capable de prendre en charge plus de 1 000 langues différentes.
Et, selon un nouvelle mise à jour (s’ouvre dans un nouvel onglet), Google a franchi une « première étape critique » dans sa construction. À l’heure actuelle, le modèle prend en charge plus de 100 langues différentes ; seulement 10 % de ce que Google a l’intention de faire.
Google a annoncé ses plans (s’ouvre dans un nouvel onglet) pour créer le modèle de langage, qu’il a surnommé le « Modèle universel de la parole » (USM) en novembre. Apparemment, l’USM est une « famille de modèles de parole à la pointe de la technologie » avec 2 milliards de paramètres et est entraînée sur 12 millions d’heures de vitesse et 28 milliards de phrases de texte dans plus de 300 langues.
Les fonctions incluront la reconnaissance automatique de la parole, en particulier pour les langues qui ne disposent généralement pas des mêmes ressources que les langues largement parlées comme l’anglais ou le mandarin.
Il est également déjà utilisé sur YouTube pour générer des sous-titres et des sous-titres pour les vidéos. Bien que seulement 73 des 100 langues actuelles susmentionnées de l’USM soient actuellement prises en charge sur le site.
Ceux d’entre vous intéressés par les détails techniques extrêmes du régime d’entraînement de l’USM peuvent les consulter sur Article de blog de Google. (s’ouvre dans un nouvel onglet)
Google n’est pas la seule entreprise dans le domaine de la traduction IA à l’heure actuelle, mais la perspective d’appliquer l’apprentissage automatique à la traduction est passionnante. Je viens de rentrer du MWC à Barcelone, je peux vous dire que l’espagnol que j’ai appris au lycée n’est pas à la hauteur. Google Translate a été utile, mais pas particulièrement pratique lorsque vous êtes au milieu d’une conversation.
Ce que Google prévoit de faire avec l’USM n’est pas tout à fait clair, mais les possibilités sont apparemment infinies. Si le système peut recevoir et traduire la parole en temps réel, qu’elle soit sous forme de texte ou de parole artificielle, cela pourrait s’avérer inestimable. D’autant plus s’il est également capable de traduire du texte rapidement et efficacement.
D’autant plus si nous avons des lunettes de réalité augmentée qui peuvent reconnaître et traduire pour nous sans nécessairement avoir à y être invitées au préalable. Tant que l’IA peut également reconnaître ce qu’il ne faut pas traduire. La dernière chose dont nous avons besoin, c’est que des conversations en arrière-plan soient constamment traduites et pompées dans nos oreilles.
Mais il reste encore un long chemin à parcourir avant que l’USM n’atteigne le noble objectif de Google de 1 000 langues. Une centaine de langues est un bon début, mais il en existe bien plus que cela dans le monde. Nous allons donc devoir attendre et voir ce qui se passe.
Google I/O 2023 n’est pas si loin, et avec une rumeur de 20 produits AI dans le pipeline, nous pourrions bien en entendre plus sur eux et sur l’USM lors de la keynote.