C’est le début de l’ère des bases de données dégroupées

Grace à cloud, la quantité de données générées et stockées a explosé en échelle et en volume.

Chaque aspect de l’entreprise est instrumenté pour les données, de sorte que de nouvelles opérations sont construites sur la base de ces données, poussant chaque entreprise à devenir une entreprise de données.

L’émergence de la base de données cloud est l’un des changements les plus profonds et peut-être non évidents à l’origine de cette situation. Des services tels qu’Amazon S3, Google BigQuery, Snowflake et Databricks ont résolu le calcul sur de gros volumes de données et ont facilité le stockage des données de toutes les sources disponibles.

L’entreprise souhaite stocker tout ce qu’elle peut dans l’espoir de pouvoir offrir une expérience client améliorée et de nouvelles capacités de marché.

C’est le bon moment pour être une entreprise de bases de données

Les sociétés de bases de données ont levé plus de 8,7 milliards de dollars au cours des 10 dernières années, dont près de la moitié, 4,1 milliards de dollars, rien qu’au cours des 24 derniers mois, selon CB Insights.

Ce n’est pas surprenant compte tenu des valorisations vertigineuses de Snowflake et Databricks. Le marché a doublé au cours des quatre dernières années pour atteindre près de 90 milliards de dollars et devrait encore doubler au cours des quatre prochaines années. Il est sûr de dire qu’il y a une énorme opportunité à saisir.

Voir ici pour une liste solide des financements de base de données en 2021.

La croissance des bases de données stimule les dépenses de l’entreprise. Crédits image : Venrock

Il y a 20 ans, vous n’aviez qu’une seule option : une base de données relationnelle

Aujourd’hui, grâce au cloud, aux microservices, aux applications distribuées, à l’échelle mondiale, aux données en temps réel et au deep learning, de nouvelles architectures de bases de données ont émergé pour répondre aux nouvelles exigences de performance.

Nous avons maintenant différents systèmes pour les lectures rapides et les écritures rapides. Il existe également des systèmes spécifiquement conçus pour alimenter les analyses ad hoc ou pour les données non structurées, semi-structurées, transactionnelles, relationnelles, graphiques ou chronologiques, ainsi que pour les données utilisées pour le cache, la recherche, basées sur des index, des événements, etc. .

Cela peut surprendre, mais il y a encore des milliards de dollars dans les instances Oracle qui alimentent encore des applications critiques aujourd’hui, et elles ne vont probablement nulle part.

Chaque système présente des besoins de performances différents, notamment une haute disponibilité, une mise à l’échelle horizontale, une cohérence distribuée, une protection contre le basculement, une tolérance de partition et le fait d’être sans serveur et entièrement géré.

Par conséquent, les entreprises stockent en moyenne les données dans sept bases de données différentes ou plus. Par exemple, vous pouvez avoir Snowflake comme entrepôt de données, Clickhouse pour les analyses ad hoc, Timescale pour les données de séries chronologiques, Elastic pour leurs données de recherche, S3 pour les journaux, Postgres pour les transactions, Redis pour la mise en cache ou les données d’application, Cassandra pour les données complexes. charges de travail et Dgraph* pour les données relationnelles ou les schémas dynamiques.

Tout cela en supposant que vous êtes colocalisé dans un seul cloud et que vous avez construit une pile de données moderne à partir de zéro.

Le niveau de performance et de garantie de ces services et plateformes est à un niveau très différent de ce que nous avions il y a 5 à 10 ans. Dans le même temps, la prolifération et la fragmentation de la couche base de données créent de plus en plus de nouveaux défis.

Par exemple, la synchronisation entre différents schémas et systèmes, l’écriture de nouvelles tâches ETL pour relier les charges de travail sur plusieurs bases de données, les problèmes constants de diaphonie et de connectivité, les frais généraux liés à la gestion du clustering actif-actif sur tant de systèmes différents, ou les transferts de données lorsque de nouveaux clusters ou les systèmes sont en ligne. Chacun d’entre eux a des exigences différentes en matière de mise à l’échelle, de ramification, de propagation, de partitionnement et de ressources.

De plus, nous avons maintenant de nouvelles bases de données chaque mois qui visent à résoudre le prochain défi de l’échelle de l’entreprise.

La base de données du nouvel âge

La question est donc : l’avenir de la base de données continuera-t-il d’être défini comme il l’est aujourd’hui ?

Source-146