OpenAI, la société à l’origine du programme de génération d’images et de génération de mèmes DALL-E et du puissant moteur de saisie semi-automatique GPT-3, a lancé un nouveau réseau de neurones open source destiné à transcrire l’audio en texte écrit (passant par Tech Crunch). Ça s’appelle Whisper, et dit la société il « se rapproche de la robustesse et de la précision du niveau humain sur la reconnaissance vocale en anglais » et qu’il peut également reconnaître, transcrire et traduire automatiquement d’autres langues comme l’espagnol, l’italien et le japonais.
En tant que personne qui enregistre et transcrit constamment des interviews, j’ai été immédiatement enthousiasmé par cette nouvelle – j’ai pensé que je serais capable d’écrire ma propre application pour transcrire l’audio en toute sécurité directement depuis mon ordinateur. Alors que les services basés sur le cloud comme Otter.ai et Trint fonctionnent pour la plupart des choses et sont relativement sécurisés, il n’y a que quelques entretiens où moi, ou mes sources, me sentirais plus à l’aise si le fichier audio restait hors d’Internet.
L’utiliser s’est avéré encore plus facile que je ne l’avais imaginé ; Python et divers outils de développement sont déjà configurés sur mon ordinateur. L’installation de Whisper a donc été aussi simple que d’exécuter une seule commande Terminal. En 15 minutes, j’ai pu utiliser Whisper pour transcrire un clip audio de test que j’avais enregistré. Pour quelqu’un de relativement féru de technologie qui n’avait pas déjà configuré Python, FFmpeg, Xcode et Homebrew, cela prendrait probablement plus d’une heure ou deux. Il y a déjà quelqu’un qui travaille à rendre le processus beaucoup plus simple et convivial, dont nous parlerons dans une seconde.
Alors qu’OpenAI a définitivement vu ce cas d’utilisation comme une possibilité, il est assez clair que la société cible principalement les chercheurs et les développeurs avec cette version. Dans le billet de blog annonçant Whisper, l’équipe a déclaré que son code pourrait « servir de base pour la création d’applications utiles et pour des recherches plus approfondies sur le traitement de la parole robuste » et qu’elle espère que « la grande précision et la facilité d’utilisation de Whisper permettront aux développeurs d’ajouter des interfaces vocales à un ensemble beaucoup plus large de applications. » Cependant, cette approche est toujours remarquable – l’entreprise a un accès limité à ses projets d’apprentissage automatique les plus populaires comme DALL-E ou GPT-3, citant un désir pour « en savoir plus sur l’utilisation dans le monde réel et continuer à itérer sur nos systèmes de sécurité ».
Il y a aussi le fait que ce n’est pas exactement un processus convivial pour installer Whisper pour la plupart des gens. Cependant, le journaliste Peter Sterne s’est associé à la défenseure des développeurs GitHub, Christina Warren. pour essayer de réparer ça, annonçant qu’ils créent une « application de transcription gratuite, sécurisée et facile à utiliser pour les journalistes » basée sur le modèle d’apprentissage automatique de Whisper. J’ai parlé à Sterne, et il a dit qu’il avait décidé que le programme, surnommé Stage Whisper, devrait exister après avoir passé quelques interviews et déterminé que c’était « la meilleure transcription que j’aie jamais utilisée, à l’exception des transcripteurs humains ».
J’ai comparé une transcription générée par Whisper à ce que Otter.ai et Trint ont publié pour le même fichier, et je dirais que c’était relativement comparable. Il y avait suffisamment d’erreurs dans chacun d’eux pour que je ne copie et colle jamais des citations dans un article sans revérifier l’audio (ce qui est, bien sûr, la meilleure pratique de toute façon, quel que soit le service que vous utilisez). Mais la version de Whisper ferait absolument l’affaire pour moi ; Je peux y chercher les sections dont j’ai besoin, puis les revérifier manuellement. En théorie, Stage Whisper devrait fonctionner exactement de la même manière puisqu’il utilisera le même modèle, juste avec une interface graphique qui l’entoure.
Sterne a admis que la technologie d’Apple et de Google pourrait rendre Stage Whisper obsolète d’ici quelques années – l’application d’enregistrement vocal de Pixel est capable de faire des transcriptions hors ligne depuis des années, et une version de cette fonctionnalité commence à déployer sur d’autres appareils Androidet Apple a intégré la dictée hors ligne dans iOS (bien qu’il n’y ait actuellement pas de bon moyen de transcrire des fichiers audio avec). « Mais nous ne pouvons pas attendre aussi longtemps », a déclaré Sterne. « Les journalistes comme nous ont besoin de bonnes applications de transcription automatique aujourd’hui. » Il espère avoir une version simplifiée de l’application basée sur Whisper prête dans deux semaines.
Pour être clair, Whisper ne rendra probablement pas totalement obsolètes les services basés sur le cloud comme Otter.ai et Trint, quelle que soit sa facilité d’utilisation. D’une part, le modèle d’OpenAI manque l’une des plus grandes caractéristiques des services de transcription traditionnels : être capable d’étiqueter qui a dit quoi. Sterne a déclaré que Stage Whisper ne prendrait probablement pas en charge cette fonctionnalité : « nous ne développons pas notre propre modèle d’apprentissage automatique ».
Le cloud est juste l’ordinateur de quelqu’un d’autre – ce qui signifie probablement qu’il est un peu plus rapide
Et tandis que vous bénéficiez des avantages de la transformation locale, vous bénéficiez également des inconvénients. Le principal est que votre ordinateur portable est presque certainement beaucoup moins puissant que les ordinateurs qu’un service de transcription professionnel utilise. Par exemple, j’ai introduit l’audio d’une interview de 24 minutes dans Whisper, fonctionnant sur mon MacBook Pro M1 ; il a fallu environ 52 minutes pour transcrire l’intégralité du fichier. (Oui, je me suis assuré qu’il utilisait la version Apple Silicon de Python au lieu de celle d’Intel.) Otter a craché une transcription en moins de huit minutes.
La technologie d’OpenAI a cependant un gros avantage : le prix. Les services d’abonnement basés sur le cloud vous coûteront presque certainement de l’argent si vous les utilisez de manière professionnelle (Otter a un niveau gratuit, mais les changements à venir le rendront moins utile pour les personnes qui transcrivent fréquemment des choses), et les fonctionnalités de transcription construites -dans des plateformes comme Microsoft Word ou le Pixel vous oblige à payer pour un logiciel ou du matériel séparé. Stage Whisper – et Whisper lui-même – est gratuit et peut fonctionner sur l’ordinateur que vous possédez déjà.
Encore une fois, OpenAI a de plus grands espoirs pour Whisper que d’être la base d’une application de transcription sécurisée – et je suis très enthousiaste à l’idée de ce que les chercheurs finiront par en faire ou de ce qu’ils apprendront en examinant le modèle d’apprentissage automatique, qui a été formé sur « 680 000 heures de données supervisées multilingues et multitâches collectées sur le web ». Mais le fait qu’il ait aussi aujourd’hui une réelle utilité pratique le rend d’autant plus excitant.