Deepgram s’est fait un nom comme l’une des startups incontournables en matière de reconnaissance vocale. Aujourd’hui, la société bien financée a annoncé le lancement d’Aura, sa nouvelle API de synthèse vocale en temps réel. Aura combine des modèles de voix très réalistes avec une API à faible latence pour permettre aux développeurs de créer des agents d’IA conversationnels en temps réel. Soutenus par des modèles de langage étendus (LLM), ces agents peuvent ensuite remplacer les agents du service client dans les centres d’appels et dans d’autres situations en contact avec les clients.
Comme me l’a dit Scott Stephenson, co-fondateur et PDG de Deepgram, il est depuis longtemps possible d’avoir accès à d’excellents modèles vocaux, mais ceux-ci étaient coûteux et prenaient beaucoup de temps à calculer. Pendant ce temps, les modèles à faible latence ont tendance à paraître robotiques. Aura de Deepgram combine des modèles de voix de type humain qui s’affichent extrêmement rapidement (généralement en moins d’une demi-seconde) et, comme Stephenson l’a souligné à plusieurs reprises, le fait à bas prix.
« Maintenant, tout le monde se dit : ‘hé, nous avons besoin de robots d’IA vocale en temps réel qui peuvent percevoir ce qui est dit et qui peuvent comprendre et générer une réponse – et ensuite ils peuvent répondre' », a-t-il déclaré. Selon lui, il faut une combinaison de précision (qu’il a décrite comme des enjeux pour un service comme celui-ci), une faible latence et des coûts acceptables pour qu’un produit comme celui-ci en vaille la peine pour les entreprises, en particulier lorsqu’il est combiné avec le coût relativement élevé d’accès aux LLM. .
Deepgram affirme que le prix d’Aura bat actuellement pratiquement tous ses concurrents à 0,015 $ pour 1 000 caractères. Ce n’est pas si loin du prix de Google pour ses voix WaveNet à 0,016 pour 1 000 caractères et des voix Polly’s Neural d’Amazon au même 0,016 $ pour 1 000 caractères, mais – certes – c’est moins cher. Le niveau le plus élevé d’Amazon est cependant nettement plus cher.
« Il faut atteindre un très bon niveau de prix dans tous les domaines. [segments], mais vous devez également avoir des latences et une vitesse incroyables, ainsi qu’une précision incroyable. C’est donc une chose très difficile à atteindre », a déclaré Stephenson à propos de l’approche générale de Deepgram pour créer son produit. « Mais c’est ce sur quoi nous nous sommes concentrés dès le début et c’est pourquoi nous avons construit pendant quatre ans avant de publier quoi que ce soit, car nous construisions l’infrastructure sous-jacente pour concrétiser cela. »
Aura propose à ce stade une douzaine de modèles vocaux, tous formés par un ensemble de données créé par Deepgram avec des acteurs vocaux. Le modèle Aura, comme tous les autres modèles de l’entreprise, a été formé en interne. Voici à quoi cela ressemble :
Vous pouvez essayer une démo d’Aura ici. Je le teste depuis un moment et même si vous rencontrerez parfois des prononciations étranges, la vitesse est vraiment ce qui ressort, en plus du modèle parole-texte de haute qualité existant de Deepgram. Pour mettre en évidence la vitesse à laquelle il génère des réponses, Deepgram note le temps qu’il a fallu au modèle pour commencer à parler (généralement moins de 0,3 seconde) et combien de temps il a fallu au LLM pour finir de générer sa réponse (qui est généralement un peu moins d’une seconde).