Lors de son sommet Data + AI, Databricks a fait aujourd’hui le nombre requis d’annonces que l’on pourrait attendre d’un événement phare pour les développeurs d’une entreprise. Parmi ceux-ci figurent le lancement de Delta Lake 2.0, la prochaine version de sa plate-forme pour la construction de data lakehouses, MLflow 2.0, la prochaine génération de sa plate-forme de gestion du pipeline d’apprentissage automatique, qui comprend désormais MLflow Pipelines avec des modèles pour amorcer le développement de modèles et un quelques annonces autour du moteur d’analyse de données Apache Spark, qui fait partie du cœur de la plate-forme Databricks.
Avec Spark Connect, Databricks a annoncé aujourd’hui une nouvelle interface client et serveur pour Spark basée sur l’API DataFrame. Dans Spark, un DataFrame est une collection distribuée de données organisées en colonnes et mises à disposition via une API dans des langages tels que Scala, Java, Python ou R. Avec Spark Connect, Databricks reprend ce concept mais découple ensuite le client et le serveur, ce qui selon la société, cela conduira à une meilleure stabilité et permettra la connectivité à distance en tant que fonctionnalité intégrée.
Ce qui est peut-être plus excitant, cependant, c’est quelque chose que Databricks appelle Project Lightspeed, que la société décrit comme la prochaine génération du moteur de streaming Spark. Databricks affirme qu’à mesure que de plus en plus d’applications nécessitent désormais des données de streaming, les exigences relatives à ce que les moteurs de streaming peuvent fournir ont également changé.
« Spark Structured Streaming a été largement adopté depuis les débuts du streaming en raison de sa facilité d’utilisation, de ses performances, de son vaste écosystème et de ses communautés de développeurs », explique la société dans l’annonce d’aujourd’hui. « Dans cet esprit, Databrick collaborera avec la communauté et encouragera la participation au projet Lightspeed pour améliorer les performances, la prise en charge de l’écosystème pour les connecteurs, améliorer les fonctionnalités de traitement Les données avec de nouveaux opérateurs et API, et simplifier le déploiement, les opérations, la surveillance et le dépannage. »
Un porte-parole de Databricks m’a dit que le projet sera dirigé par Karthik Ramasamy, responsable du streaming de l’entreprise, avec un accent sur la fourniture d’un débit plus élevé, d’une latence plus faible et d’un coût réduit, ainsi que d’un écosystème élargi de connecteurs et de fonctionnalités de traitement de données supplémentaires.