Mercredi, OpenAI a publié un nouveau modèle d’IA open source appelé Whisper qui reconnaît et traduit l’audio à un niveau qui se rapproche de la capacité de reconnaissance humaine. Il peut transcrire des interviews, des podcasts, des conversations, etc.
OpenAI a formé Whisper sur 680 000 heures de données audio et de transcriptions correspondantes dans 98 langues collectées sur le Web. Selon OpenAI, cette approche de collection ouverte a conduit à « une meilleure robustesse aux accents, au bruit de fond et au langage technique ». Il peut également détecter la langue parlée et la traduire en anglais.
OpenAI décrit Whisper comme un transformateur encodeur-décodeur, un type de réseau neuronal qui peut utiliser le contexte glané à partir des données d’entrée pour apprendre des associations qui peuvent ensuite être traduites dans la sortie du modèle. OpenAI présente cet aperçu du fonctionnement de Whisper :
L’audio d’entrée est divisé en morceaux de 30 secondes, converti en un spectrogramme log-Mel, puis transmis à un encodeur. Un décodeur est formé pour prédire la légende de texte correspondante, mélangée à des jetons spéciaux qui dirigent le modèle unique pour effectuer des tâches telles que l’identification de la langue, les horodatages au niveau de la phrase, la transcription vocale multilingue et la traduction vocale vers l’anglais.
En open source Whisper, OpenAI espère introduire un nouveau modèle de base sur lequel d’autres pourront s’appuyer à l’avenir pour améliorer le traitement de la parole et les outils d’accessibilité. OpenAI a un bilan significatif sur ce front. En janvier 2021, OpenAI a publié CLIP, un modèle de vision par ordinateur open source qui a sans doute enflammé l’ère récente des technologies de synthèse d’images à progression rapide telles que DALL-E 2 et Stable Diffusion.
Chez Ars Technica, nous avons testé Whisper à partir de code disponible sur GitHub, et nous lui avons fourni plusieurs échantillons, dont un épisode de podcast et une section audio particulièrement difficile à comprendre tirée d’un entretien téléphonique. Bien que cela ait pris un certain temps lors de l’exécution d’un processeur de bureau Intel standard (la technologie ne fonctionne pas encore en temps réel), Whisper a fait un bon travail de transcription de l’audio en texte via le programme de démonstration Python – bien mieux que certains services de transcription audio que nous avons essayés dans le passé.
Avec la configuration appropriée, Whisper pourrait facilement être utilisé pour transcrire des interviews, des podcasts et potentiellement traduire des podcasts produits dans des langues autres que l’anglais vers l’anglais sur votre machine, gratuitement. C’est une combinaison puissante qui pourrait éventuellement perturber l’industrie de la transcription.
Comme pour presque tous les nouveaux modèles d’IA majeurs de nos jours, Whisper apporte des avantages positifs et un potentiel d’utilisation abusive. Sur la carte modèle de Whisper (sous la section « Implications plus larges »), OpenAI avertit que Whisper pourrait être utilisé pour automatiser la surveillance ou identifier les locuteurs individuels dans une conversation, mais la société espère qu’il sera utilisé « principalement à des fins bénéfiques ».