OpenAI lance l’API Whisper pour la transcription et la traduction de la parole en texte

Pour coïncider avec le déploiement de l’API ChatGPT, OpenAI a lancé aujourd’hui l’API Whisper, une version hébergée du modèle open source de synthèse vocale Whisper que la société a publié en septembre.

Au prix de 0,006 $ la minute, Whisper est un système de reconnaissance vocale automatique qui, selon OpenAI, permet une transcription « robuste » dans plusieurs langues ainsi que la traduction de ces langues vers l’anglais. Il prend des fichiers dans une variété de formats, y compris M4A, MP3, MP4, MPEG, MPGA, WAV et WEBM.

D’innombrables organisations ont développé des systèmes de reconnaissance vocale hautement performants, qui sont au cœur des logiciels et des services de géants de la technologie comme Google, Amazon et Meta. Mais ce qui rend Whisper différent, c’est qu’il a été formé sur 680 000 heures de données multilingues et «multitâches» collectées sur le Web, selon le président et président d’OpenAI Greg Brockman, ce qui a permis d’améliorer la reconnaissance des accents uniques, du bruit de fond et du jargon technique.

« Nous avons publié un modèle, mais cela n’a en fait pas suffi à faire en sorte que tout l’écosystème de développeurs se construise autour de lui », a déclaré Brockman lors d’un appel vidéo avec TechCrunch hier après-midi. « L’API Whisper est le même grand modèle que vous pouvez obtenir en open source, mais nous l’avons optimisé à l’extrême. C’est beaucoup, beaucoup plus rapide et extrêmement pratique.

Pour Brockman, il existe de nombreux obstacles lorsqu’il s’agit d’adopter la technologie de transcription vocale. Selon une enquête Statista de 2020, les entreprises citent les problèmes de précision, de reconnaissance liés à l’accent ou au dialecte et les coûts comme les principales raisons pour lesquelles elles n’ont pas adopté la technologie comme la technologie à la parole.

Whisper a cependant ses limites, en particulier dans le domaine de la prédiction du «mot suivant». Parce que le système a été formé sur une grande quantité de données bruyantes, OpenAI prévient que Whisper pourrait inclure des mots dans ses transcriptions qui n’ont pas été réellement prononcés – peut-être parce qu’il essaie à la fois de prédire le mot suivant dans l’audio et de transcrire l’enregistrement audio lui-même. De plus, Whisper ne fonctionne pas aussi bien dans toutes les langues, souffrant d’un taux d’erreur plus élevé lorsqu’il s’agit de locuteurs de langues qui ne sont pas bien représentés dans les données de formation.

Ce dernier élément n’est malheureusement pas nouveau dans le monde de la reconnaissance vocale. Les biais ont longtemps tourmenté même les meilleurs systèmes, avec une étude de Stanford de 2020 qui a révélé que les systèmes d’Amazon, Apple, Google, IBM et Microsoft ont fait beaucoup moins d’erreurs – environ 19 % – avec les utilisateurs blancs qu’avec les utilisateurs noirs.

Malgré cela, OpenAI voit les capacités de transcription de Whisper utilisées pour améliorer les applications, services, produits et outils existants. Déjà, l’application d’apprentissage des langues basée sur l’IA Speak utilise l’API Whisper pour alimenter un nouveau compagnon de conversation virtuel intégré à l’application.

Si OpenAI peut percer de manière majeure sur le marché de la synthèse vocale, cela pourrait être très rentable pour la société soutenue par Microsoft. Selon un rapport, le segment pourrait valoir 5,4 milliards de dollars d’ici 2026, contre 2,2 milliards de dollars en 2021.

« Notre image est que nous voulons vraiment être cette intelligence universelle », a déclaré Brockman. « WNous voulons vraiment, de manière très flexible, être en mesure d’absorber tout type de données dont vous disposez – quel que soit le type de tâche que vous souhaitez accomplir – et être un multiplicateur de force sur cette attention.

Source-146