Les applications de calendrier sont essentielles à la productivité, mais il est difficile de les différencier suffisamment pour avoir une croissance soutenue uniquement à partir de leur utilisation principale. Superpowered, soutenu par Y Combinator, qui est un outil de prise de notes basé sur l’IA pour vos réunions qui n’implique pas de robots d’enregistrement, a franchi cet obstacle et est maintenant en train de devenir Vapi, un fournisseur d’API permettant à chacun de créer facilement un message vocal au son naturel. Assistant alimenté par l’IA.
Superpowered a été fondée en 2020 par Jordan Dearsley et Nikhil Gupta. Mais après trois ans de travail, Dearsley a déclaré que l’équipe souhaitait travailler sur un produit plus ambitieux. La société n’arrête pas le produit initial, car la startup a déclaré que Superpowered était rentable – elle est en train de faire appel à quelqu’un pour le faire fonctionner. Y Combinator a déclaré en juin que plus de 10 000 personnes utilisaient le produit chaque semaine, mais la société n’a fourni aucun chiffre actualisé.
À ce jour, Superpowered/Vapi a levé 2,1 $ de capital d’amorçage auprès d’investisseurs tels que Kleiner Perkins et Abstract Ventures.
Pivoter vers Vapi
La société propose Vapi comme API pour permettre aux développeurs de créer un robot en utilisant uniquement des invites, puis de le placer derrière un numéro de téléphone. De plus, il offre une intégration SDK afin que les développeurs puissent intégrer le bot sur des sites Web et des applications mobiles.
Dearsley a déclaré à TechCrunch par courrier électronique que l’idée de créer Vapi découlait d’un problème personnel. Il avait déménagé à San Francisco et ses amis et sa famille commençaient à lui manquer, qui se trouvaient dans un fuseau horaire différent. Il a construit un robot IA attaché à un numéro de téléphone à l’autre bout du fil pour parler à quelqu’un afin de trier ses pensées.
«J’ai aimé ça, mais j’étais continuellement frustré de voir à quel point ce n’était pas naturel. Ce n’était pas comme parler à une personne. La voix sonnait mal, il y avait de longs délais avant qu’elle ne réponde et elle m’interrompait pendant que je parlais. il a dit.
« Alors j’ai continué à travailler dessus et à me promener avec. Finalement, nous avons été fascinés par ce problème de conversation. C’est vraiment difficile de donner l’impression que quelque chose est humain. Assistants vocaux aujourd’hui sont maladroits et au tour par tour, nous voulons construire quelque chose qui semble humain.
Techniquement, Vapi utilise actuellement un certain nombre d’API tierces pour créer une plate-forme de conversation vocale robuste. Par exemple, il utilise les solutions de Twilio pour la téléphonie, Deepgram pour la transcription, Daily pour le streaming audio, OpenAI pour les réponses et PlayHT pour la synthèse vocale.
ScaleConvo, une startup du lot hiver YC 2024, utilise déjà Vapi pour lancer des robots conversationnels pour les équipes commerciales et les sociétés de gestion immobilière. Cependant, Vapi n’a pas divulgué ses autres clients. L’entreprise ouvre son API avec Produits Vapi Phone et Vapi Web aujourd’hui.
Les défis pour Vapi
L’un des plus grands défis de la startup est de réduire la latence, selon Magnus Revan, ancien analyste de Gartner et directeur des produits de la startup de conversation multimodale Openstream.ai.
« Les modèles OpenAI ont besoin de 2 à 10 secondes pour générer une réponse – alors qu’au téléphone, l’étalon-or est d’avoir 700 ms entre l’utilisateur finissant de parler et le « robot » commençant à parler. Et atteindre une latence inférieure à 1 seconde avec des modèles performants (modèles open source à nombre de paramètres élevé comme LLaMA2 70B) est vraiment difficile », a déclaré Revan.
Actuellement, Vapi a une latence de 1,2 à 2 secondes en fonction de divers facteurs. Dearsley espère réduire la latence à moins d’une seconde au cours du mois prochain grâce au travail de Vapi et aux améliorations d’OpenAI.
Mohamed Musbah, un investisseur providentiel de Vapi, a également déclaré que la solution de la startup s’améliorerait avec les progrès globaux de l’API.
« À mesure qu’OpenAI et d’autres améliorent leurs modèles, la plate-forme Vapi deviendra plus puissante, dotée de meilleures bases de connaissances, de capacités d’exécution de code et de fenêtres contextuelles plus grandes. L’accent mis par Vapi sur la résolution des plus grandes zones de friction dans la communication vocale sera son avantage à mesure que la demande des utilisateurs pour les assistants vocaux augmente », a-t-il déclaré.
Cependant, cela impose l’amélioration d’autres solutions plutôt que Vapi lui-même. Dearsley a déclaré que le recours à d’autres API réduisait la capacité de défense de Vapi si les grandes entreprises commençaient à s’implanter dans ce domaine. Cependant, l’équipe a déclaré qu’elle avait un avantage en termes de construction d’une infrastructure capable de gérer des milliers d’appels simultanément. Dearsley a souligné qu’avec le lancement public de l’API Web et téléphonique de Vapi, l’équipe cherchera également à créer ses propres modèles de solutions audio-audio.