Le traitement du langage naturel (PNL), bien qu’il ne s’agisse pas d’une nouvelle discipline, s’est catapulté dans la conscience publique ces derniers mois grâce en grande partie au train de battage publicitaire de l’IA générative qu’est ChatGPT. Aux côtés d’autres modèles NLP tels que Transformers de Hugging Face et LaMDA de Google, qui devrait alimenter son rival ChatGPT Bard, il y a un sentiment palpable que l’arrivée de l’IA dans le courant dominant est presque là.
Mais pour ceux qui tapent quelques mots-clés dans ChatGPT pour créer des paroles dans le style de Nick Cave, il est facile d’oublier tout le travail nécessaire au développement des modèles d’IA sous-jacents, les amenant au point où ils sont prêts pour le marché de masse consommation.
Pour créer des modèles NLP, les développeurs ont besoin non seulement d’algorithmes, mais aussi de tonnes de données de formation de qualité qui sont précisément « étiquetées », une technique qui catégorise les données brutes pour permettre aux machines de les comprendre et d’en tirer des enseignements. De nombreuses entreprises existent de manière substantielle pour alimenter ce processus d’étiquetage, dont l’une est la startup allemande Kern AI, qui a construit une plate-forme pour les développeurs NLP et les scientifiques des données pour non seulement contrôler le processus d’étiquetage, mais automatiser et orchestrer les tâches tangentielles et leur permettre de traiter les faibles -des données de qualité qui leur parviennent.
PNL « centrée sur les données »
Le NLP étant l’une des tendances les plus en vogue du moment en matière d’IA, Kern AI a annoncé aujourd’hui avoir levé 2,7 millions d’euros (2,9 millions de dollars) en financement de démarrage pour doubler la croissance récente qui l’a vu adopté par des clients commerciaux, y compris des compagnies d’assurance Barmenia et VHV Versicherungen, des entreprises de logistique telles que Evolution Time Critical, filiale de Metro Supply Chain Group, et des startups soutenues par des entreprises telles que Crowd.dev. La société affirme également que son incarnation open source de base a été utilisée par des scientifiques des données dans des entreprises telles que Samsung et DocuSign.
Fondée à Bonn en 2020, le co-fondateur et PDG Johannes Hötter a déclaré qu’il avait lancé l’entreprise « avec la conviction que la PNL deviendrait une technologie de numérisation de base », reconnaissant que les développeurs ont besoin de plus de contrôle et de flexibilité sur le processus de développement de la PNL.
Le produit phare de la société est la raffinerie open source, qui permet aux développeurs d’adopter une approche centrée sur les données pour créer des modèles NLP en semi-automatisant leur étiquetage, d’identifier des ensembles de données de faible qualité dans leurs données de formation et de surveiller toutes leurs données dans une seule interface.
Ailleurs, Bricks – également open source – est une collection d' »extraits de code » modulaires et standardisés que les développeurs peuvent intégrer dans Refinery – c’est la « logique d’application qui pilote vos automatisations NLP », selon la société.
Hötter a déclaré qu’un cas d’utilisation typique dans le monde réel pour la plate-forme Kern AI implique l’outillage interne des entreprises. Par exemple, une entreprise de logistique peut avoir besoin de répondre à une demande client telle que « veuillez expédier 20 palettes à notre usine de Göteborg d’ici demain 16h” — ces demandes urgentes doivent recevoir une réponse rapide. L’entreprise de logistique pourrait utiliser Kern AI pour synchroniser les demandes entrantes avec son système de gestion des transports (TMS), afin de détecter automatiquement l’intention et les exigences de la demande.
« Cela se fait en synchronisant la boîte de réception du service avec notre flux de travail de produits commerciaux, qui transmet ensuite les données à Refinery », a expliqué Hötter à TechCrunch. « Ici, les développeurs peuvent utiliser des techniques NLP pour analyser la demande, puis transmettre les informations extraites structurées directement à leur TMS. »
Donc, à certains égards, cela fonctionne de manière similaire à quelque chose comme Zapier, mais plutôt que de suivre une approche basée sur des règles, il est conçu pour une compréhension plus complexe du langage naturel.
L’état des lieux
En vérité, il existe déjà une myriade de plates-formes similaires, couvrant l’ensemble des paysages propriétaires et open source. Il s’agit notamment d’Argilla, qui a récemment levé un financement de démarrage de 1,6 million de dollars, et de Heartex, qui a clôturé une tranche de financement plus importante de 25 millions de dollars l’année dernière pour Label Studio. Et puis il y a Snorkel AI, une offre exclusive qui a obtenu quelque 135 millions de dollars de financement au cours de son histoire.
Alors, qu’est-ce que Kern AI fait exactement de différent ? Hötter dit qu’il s’agit de la seule « pile complète à noyau ouvert et modulaire » actuellement sur le marché. Il entend par là que sa plate-forme peut être utilisée soit comme un module complémentaire axé sur les développeurs branché sur des plates-formes d’étiquetage existantes telles que Label Studio, soit pour créer des applications PNL entières centrées sur les données dans leur intégralité.
« Cela signifie que vous pouvez soit utiliser Refinery comme application pour simplement gérer et créer vos données de formation, par exemple si vous êtes une startup souhaitant créer un produit NLP sophistiqué et que vous avez maintenant besoin d’une excellente solution pour créer les données », a déclaré Hötter. . « Alternativement, vous pouvez également utiliser les algorithmes de Refinery pour déployer une API en temps réel et orchestrer des flux de travail complets, qui couvriraient toute la chaîne de valeur. Notre objectif est d’apporter les avancées de la PNL moderne aux équipes de données, quelle que soit leur pile technologique actuelle, et donc notre plate-forme est modulaire. »
Kern AI compte actuellement quelque neuf employés, travaillant pour la plupart à distance tout en conservant un bureau physique dans sa ville natale de Bonn.
Auparavant, Kern AI avait levé un petit tour de financement de pré-amorçage de 550 000 € (587 000 $), et avec 2,9 millions de dollars frais en banque, Hötter a déclaré que la société prévoyait d’étendre l’ensemble des fonctionnalités de la plate-forme pour couvrir des flux de travail supplémentaires, y compris des données audio et documentaires, et de créer des produits pour une gamme beaucoup plus large de cas d’utilisation de l’industrie. Hötter a également déclaré qu’ils accéléreraient les plans pour rendre un niveau personnel gratuit généralement disponible, car il n’est actuellement disponible que sur invitation.
Le tour de table de Kern AI a été co-dirigé par Seedcamp et Faber, avec la participation de xdeck, Another.vc et une poignée d’investisseurs providentiels.