La qualité des données – la pratique consistant à tester et à s’assurer que les données et les ensembles de données que vous utilisez sont ce que vous attendez d’eux – est devenue un élément clé dans le monde de la science des données. Les données peuvent être le « nouveau pétrole » ; mais s’il est trop grossier, vous ne pourrez peut-être pas l’utiliser.
Aujourd’hui, une startup qui construit des outils pour faciliter la mesure et assurer la qualité des données que vous utilisez annonce un financement, signe de la façon dont l’attention s’est déplacée vers ce domaine.
Superconductive – une startup surtout connue pour avoir créé et maintenu l’outil de qualité des données open source Great Expectations – a levé 40 millions de dollars dans le cadre d’un cycle de financement de série B. Il utilisera le capital à la fois pour continuer à développer son produit et sa communauté open source, et pour préparer son premier produit commercial – une version moins technique et plus accessible de Great Expectations qui peut être utilisée plus que de simples ingénieurs et data scientists – devrait être lancé plus tard cette année.
Une fois l’offre commerciale publiée, elle sera nommée Great Expectations Cloud.
Comme le décrit Abe Gong, PDG et co-fondateur de Superconductive, la qualité des données est depuis longtemps une priorité pour les équipes d’ingénierie et de science des données. Mais à mesure que l’utilisation et l’accès aux données se démocratisent de plus en plus dans des organisations de plus en plus numérisées – en partie grâce aux logiciels low-code et no-code – la qualité des données devient un point de considération (pas un « problème » ou un « défi », Gong s’empresse de souligner out) pour plus de personnes. L’idée est que le fait d’avoir des outils de qualité des données que plus de gens peuvent utiliser et comprendre leur donnera la capacité de comprendre les limites ou les lacunes, et de les corriger.
« La question plus large est de savoir comment chacun dans l’organisation arrive à un point où il fait confiance à ce que font les données et à ce qu’elles essaient de faire », a-t-il déclaré. « L’équipe d’ingénierie peut lui faire confiance, mais elle peut ne pas être alignée sur d’autres équipes. Peu importe si c’est correct, c’est toujours douter que les données soient adaptées à l’usage pour lequel je veux les utiliser.
Même sans produit commercial, Superconductive, basé à Salt Lake City, attire beaucoup l’attention des hauts lieux. Tiger Global est en tête du tour, avec la participation des précédents bailleurs de fonds Index, CRV et Root Ventures. La société ne divulgue pas sa valorisation, mais nous comprenons que la dilution est inférieure à 15 %, ce qui la place à plus de 267 millions de dollars.
Le financement arrive moins d’un an depuis que Superconductive a levé une série A de 21 millions de dollars, en mai 2021. Une partie de la raison pour laquelle les investisseurs sont venus frapper si peu de temps après le dernier tour est à cause de la forte traction de ses outils open source.
Great Expectations voit actuellement plus de 2,5 millions de téléchargements mensuels (plus près de 3 millions, m’a dit Gong), tandis que les membres de sa communauté, qu’il maintient sur Slack, ont maintenant dépassé les 6 000 (les téléchargements sont basés sur des machines exécutant Great Expectations, tandis que le Les utilisateurs de Slack sont des ingénieurs travaillant activement avec les outils). Les entreprises qui l’adoptent incluent Vimeo, Heineken, Calm et Komodo Health ; et il trouve également son chemin dans l’utilisation via les partenaires de l’écosystème Databricks, Astronomer, Prefect et plus encore.
Great Expectations a vu le jour lorsque Gong et son co-fondateur Ben Castleton James Campbell — tous deux informaticiens avec des décennies d’expérience entre eux — ont initialement créé des outils pour résoudre le problème de la qualité des données pour les organisations travaillant dans le domaine de la santé. Ils ont finalement fait pivoter l’entreprise pour saisir l’opportunité la plus importante : les problèmes rencontrés par les organisations de soins de santé étaient les mêmes que ceux rencontrés par les entreprises d’autres secteurs verticaux.
Le nœud du problème est que lorsque les ingénieurs créent des analyses ou d’autres outils pour travailler avec des données, ils peuvent ne pas tenir compte du fait que les données ingérées par ces outils sont dans le bon état pour être utilisées correctement (par exemple, sont dates saisies dans les mêmes formats cohérents, ou si ce n’est pas la meilleure façon de les réorganiser). Ou, ils n’ont peut-être pas pris en compte les différentes façons dont les utilisateurs des analyses pourraient finir par les utiliser. Par exemple, que se passe-t-il lorsqu’un tableau de bord d’analyse de fin de mois est soudainement consulté au milieu du mois ? les idées seront-elles toujours cohérentes ou dérouteront-elles complètement les gens en raison de la façon dont la formule et les processus ont été mis en place ?).
« À la fin du mois, les chiffres seraient corrects, vous pourriez voir une baisse des ventes au milieu du mois », a déclaré Gong. « L’équipe d’ingénierie peut dire que c’est correct parce que le système est toujours en train de calculer, mais d’un point de vue commercial, beaucoup de choses peuvent être confuses, même si le système fonctionne correctement. »
Great Expectations vise à «réparer» ces situations avec des outils qui aident à définir des paramètres sur les données pour s’assurer qu’elles restent cohérentes et au même niveau de qualité. Le référentiel dit « d’attentes » – certains construits par Superconductive, et beaucoup construits par la communauté – sont des déclarations déclaratives qui sont configurées pour avoir un sens à la fois pour les humains, mais aussi pour les ordinateurs afin qu’ils puissent faire le travail derrière les commandes.
Superconductive cite des chiffres de Gartner qui soutiennent l’idée que la qualité des données est un problème croissant pour les organisations. Les analystes estiment qu’actuellement, les entreprises subissent des coûts de 12,9 millions de dollars par an en raison de la mauvaise qualité des données, à la fois parce que les données n’ont pas fonctionné comme elles le devraient, mais aussi en raison des décisions que ces mauvaises données ont entraînées. Gartner prédit que cette année, 70 % des organisations se tourneront vers le suivi des niveaux de qualité des données pour résoudre ce problème.
Cela signifie également que Superconductive a de la concurrence. Des entreprises comme Microsoft, SAS, Talend et d’autres ont construit des outils de qualité des données en complément des autres services de données qu’elles fournissent. Gong a également déclaré que de nombreuses entreprises construisent des solutions « maison », bien que celles-ci puissent se heurter à des limites, comme le font souvent les outils internes. Supraconductive pense qu’il a beaucoup d’opportunités dans l’espace pour plusieurs raisons différentes.
Le premier est le fait qu’il a déjà une grande communauté utilisant ses outils open source, qui devient un entonnoir pour les utilisateurs du produit commercial. Deuxièmement, il est dédié à la tâche de qualité des données.
« D’autres ont tendance à le trancher différemment », a-t-il déclaré. «Parfois, vous entendez parler de la qualité des données dans le contexte de l’observabilité des données et donc c’est axé sur les ingénieurs et non sur le rôle plus large. Nous nous considérons comme différents, une solution ouverte ascendante considérant la portée plus large de cela comme notre mission, pas seulement un problème d’ingénierie.
Les investisseurs, en particulier ceux qui ont eux-mêmes expérimenté les points faibles du logiciel de débogage et savaient que les mêmes problèmes existaient avec les données, semblent être d’accord.
« La vision était simple, mais ambitieuse : créer un lieu unique pour observer, surveiller et collaborer sur la qualité de vos données, à n’importe quel niveau de granularité, sur n’importe quel système », a écrit Bryan Offutt d’Index Ventures au moment de leur premier investissement dans l’entreprise en 2021. « En donnant aux équipes de données un moyen de bout en bout de surveiller la qualité du pipeline à la production, Abe voulait apporter la même capacité à identifier et résoudre les problèmes qui existe dans les logiciels traditionnels au monde des données . Enfin, les équipes de données pouvaient détecter les problèmes avant qu’ils ne parviennent aux utilisateurs finaux. C’était comme si Abe avait lu le livre sur chaque problème que j’avais rencontré en tant qu’ingénieur travaillant sur les pipelines de données. C’était comme si le monde des données avait son propre DataDog.
Mis à jour avec le nom correct du co-fondateur. James Campbell est le CTO qui a aidé à construire Great Expectations.