Les lacs d’information et les entrepôts d’information étaient autrefois des animaux complètement différents, mais maintenant ils semblent se combiner. Un lac de données était un référentiel d’informations unique contenant toutes vos données à des fins d’analyse. L’information a été stockée dans sa forme native, au moins. Une installation de stockage de données était une base de données analytique, normalement relationnelle, développée à partir de deux ou plusieurs sources d’information. L’entrepôt de données était généralement utilisé pour enregistrer des données historiques, généralement en utilisant un schéma en étoile ou un minimum d’un grand ensemble d’index pour prendre en charge les questions.
Les lacs d’information comprenaient une très grande quantité de données et résidaient généralement sur Apache Clusters Hadoop de systèmes informatiques de produits, utilisant HDFS (Hadoop Dispersed File System) et des structures d’analyse open source. Au départ, l’analyse impliquait MapReduce, mais Apache Spark a considérablement amélioré la vitesse de traitement. Il a également pris en charge le traitement des flux et l’intelligence artificielle, ainsi que l’analyse des informations historiques. Les lacs de données n’appliquaient pas de schéma aux données tant qu’elles n’étaient pas utilisées : un processus appelé schéma à la lecture.
Les installations de stockage d’informations avaient tendance à avoir moins d’informations, mais elles étaient mieux organisée, avec un schéma établi qui s’est imposé au fur et à mesure de l’écriture des données (schema on compose). Étant donné qu’ils ont été développés principalement pour une analyse rapide, les installations de stockage de données utilisaient le stockage le plus rapide possible, y compris les disques à semi-conducteurs (SSD) une fois qu’ils étaient proposés, et autant de RAM que possible. Cela a rendu coûteux le matériel de stockage des entrepôts d’informations.
Databricks a été fondé par les personnes à l’origine d’Apache Spark, et l’entreprise contribue toujours fortement au travail open source Glow. Databricks a également fourni un certain nombre d’autres produits à l’open source, notamment MLflow, Delta Lake, Delta Sharing, Redash et Koalas.
Cet examen concerne l’offre cloud commerciale actuelle de Databricks, Databricks Lakehouse Plateforme. Lakehouse, comme vous pouvez le penser, est un portemanteau de lac de données et entrepôt de données. La plate-forme ajoute essentiellement SQL rapide, une brochure de données et des capacités d’analyse à un lac de données. Il a la fonctionnalité d’une installation de stockage de données sans avoir besoin d’un stockage coûteux.
Pour continuer à lire cet article, inscrivez-vous maintenant
Découvrir plus d’utilisateurs existants Check In
Toute l’actualité en temps réel, est sur L’Entrepreneur