Gladia transforme n’importe quel audio en texte en temps quasi réel

Rencontrez Gladia, une startup française de l’IA qui veut changer la façon dont les entreprises interagissent avec les données audio. La société développe une interface de programmation d’application (API) de transcription audio que vous pouvez intégrer à d’autres produits et qui est censée fonctionner bien mieux que ce qui est disponible sur le marché. Et cette fondation technologique ouvre de nouveaux cas d’utilisation autour de l’audio.

Si vous connaissez les API de transcription audio, vous savez que les grands fournisseurs de cloud ont déjà leurs propres API. Il y a l’API speech-to-text de Google, Amazon Transcribe, Microsoft’s Speech to Text, etc. Ils fonctionnent bien, mais ils sont chers, lents et n’ont pas une tonne de fonctionnalités.

Le co-fondateur et PDG de Gladia, Jean-Louis Quéguiner, qui était l’ancien responsable de l’IA pour OVHcloud et co-fondateur de l’entreprise avec Jonathan Soto, m’a parlé de certaines des limites des API existantes. Selon lui, il y a trois points douloureux avec les produits existants. Premièrement, en ce qui concerne les prix, la transcription d’une heure d’audio coûte généralement 1,50 $ à 2 $ de l’heure.

Deuxièmement, la sortie n’est pas toujours très fiable car certaines langues fonctionnent bien tandis que d’autres sont à peine prises en charge. En ce qui concerne les fonctionnalités avancées, si les gens parlent plusieurs langues, il y a de fortes chances que l’API ne puisse tout simplement pas remarquer le changement de langue et transcrire l’audio dans plus d’une langue.

Troisièmement, les API de transcription sont lentes. Cela peut prendre plus de 15 minutes pour transcrire une heure d’audio. C’est bien si vous n’avez pas besoin de transcriptions tout de suite, mais cela signifie que vous ne pourrez pas utiliser ces API dans certains secteurs.

Chuchoteur de Whisper

Gladia est basé sur Whisper, le modèle de transcription open source d’OpenAI. « Nous sommes partis de Whisper. Nous n’avons pas réinventé la roue, mais nous avons écouté nos clients et ils nous ont dit : ‘Ce que je veux, c’est quelque chose qui marche aussi bien que Whisper’ », m’a confié Jean-Louis Quéguiner.

Mais Whisper n’est pas parfait. La version vanille est encore assez lente, donc Gladia a passé beaucoup de temps à transformer Whisper en un modèle de transcription rapide et réactif. Ce n’est pas le seul problème.

« La moitié de Whisper est GPT-2. Vous avez vu des LLM et ChatGPT, ça a tendance à halluciner. Nous avons également fait beaucoup de travail pour éviter les problèmes d’hallucinations », a déclaré Quéguiner.

Il m’a notamment dit que Whisper avait été formé sur les sous-titres codés que l’on peut trouver sur internet, comme sur YouTube. Le modèle d’OpenAI a tendance à entendre des phrases courantes que vous pouvez entendre dans les vidéos en ligne, telles que « si vous avez aimé cette vidéo, veuillez aimer et vous abonner ». Il y a une surreprésentation mathématique de certaines phrases comme celle-ci et Gladia essaie de corriger ces lacunes.

En plus de ces modifications de Whisper et de sa mise en œuvre, Gladia dispose également d’algorithmes de pré-traitement et de post-traitement qui améliorent les résultats finaux.

Gladia promet qu’il peut transcrire une heure d’audio pour 0,61 $. Et le processus de transcription prend environ 60 secondes. Son API peut détecter lorsqu’il y a plusieurs locuteurs, ajouter des horodatages, détecter les langues et passer d’une langue à l’autre si nécessaire. Gladia ajoute également automatiquement la ponctuation et la casse.

Comme la plupart des API, le résultat final est au format JSON. Mais Gladia prend également en charge les fichiers SRT et VTT pour les entreprises qui souhaitent générer des sous-titres.

J’ai créé un compte et téléchargé un enregistrement audio d’une interview pour voir comment fonctionne Gladia. Cela a pris un peu plus de temps que prévu, mais c’était certainement beaucoup plus rapide que les API de synthèse vocale de Google ou d’Azure.

Le résultat n’était pas parfait, mais il était extrêmement bon — il comprenait les acronymes et les termes techniques. J’ai ouvert le même fichier audio dans Aiko, une application Mac développée par Sindre Sorhus et qui vous permet de transcrire un fichier audio localement à l’aide de Whisper. Comme prévu, la sortie était proche de la sortie de Gladia – mais Gladia était beaucoup plus rapide que d’exécuter Aiko sur mon MacBook Pro.

Dans l’ensemble, Gladia était la meilleure API de transcription que j’ai jamais utilisée.

Devenir une API d’intelligence audio

La société travaille actuellement avec des sociétés de centres d’appels, des services de réunions virtuelles et des éditeurs de vidéos, notamment Claap, Livestorm et Selectra.

Gladia a levé un tour de table de 4 millions de dollars lors d’un tour de financement dirigé par New Wave. Parmi les autres investisseurs figurent Sequoia, Cocoa et des business angels, tels que Solomon Hykes, Pierre Betouin, Miroslaw Klaba et Alexandre Berriche.

Avoir une API de transcription solide comme le roc n’est que la première étape pour Gladia. La société espère pouvoir ensuite créer des fonctionnalités sur cette base technique solide.

Par exemple, après la transcription d’un fichier audio, Gladia peut traduire le texte dans une autre langue. Combiné avec des horodatages au niveau du mot, cela signifie qu’une entreprise peut télécharger un fichier audio et obtenir des sous-titres dans des dizaines de langues en quelques minutes seulement.

À l’avenir, la société espère pouvoir résumer le contenu d’un fichier audio, classer le contenu en plusieurs catégories de sujets, créer automatiquement des chapitres, effectuer une analyse des sentiments, etc.

« Notre vision à plus long terme est de passer des données 2D aux données 3D. L’audio est assez plat, et l’idée est de l’augmenter avec intelligence », a déclaré Quéguiner. « Nous pensons que la transcription deviendra une marchandise. Mais nous pensons que ce qui comptera le plus, ce sont les options que nous allons ajouter. »

Source-146