Qu'est-ce qu'un lac de données ? Stockage massivement évolutif pour l'analyse de données volumineuses

cliff-diving_taking-the-plunge_dive-into-a-project_ocean_swimming_by-aydinmutlu-getty_2400x1600-100832259-large.jpg

En 2011, James Dixon, alors CTO de la société d’informatique décisionnelle Pentaho, a inventé le terme lac de données. Il a décrit le lac de données dans contrairement aux silos d’informations typiques des magasins de données, qui étaient populaires à l’époque :

Si vous considérez un magasin de données comme une réserve d’eau en bouteille, nettoyée, conditionnée et structurée pour une consommation facile, le lac de données est une grande masse d’eau dans un état plus naturel. Le contenu du lac de données provient d’une source pour remplir le lac, et divers utilisateurs du lac peuvent venir examiner, plonger ou prélever des échantillons.

Les lacs de données ont évolué depuis lors et sont désormais en concurrence avec les entrepôts de données pour une part du stockage et de l’analyse des mégadonnées. Divers outils et produits prennent en charge des requêtes SQL plus rapides dans les lacs de données, et les trois principaux fournisseurs de cloud proposent le stockage et l’analyse des lacs de données. Il y a même le nouveau concept data lakehouse, qui combine gouvernance, sécurité et analyse avec un stockage abordable. Cet article est une plongée approfondie dans les lacs de données, y compris ce qu’ils sont, comment ils sont utilisés et comment s’assurer que votre lac de données ne devienne pas un marécage de données.

Le lac de données expliqué

Un lac de données est essentiellement un référentiel de données unique qui contient toutes vos données jusqu’à ce qu’elles soient prêtes pour l’analyse, ou éventuellement uniquement les données qui ne rentrent pas dans votre entrepôt de données. En règle générale, un lac de données stocke les données dans son format de fichier natif, mais les données peuvent être transformées dans un autre format pour rendre l’analyse plus efficace. L’objectif d’un lac de données est d’extraire une valeur commerciale ou analytique des données.

Les lacs de données peuvent héberger des données binaires, telles que des images et des vidéos, des données non structurées, telles que des documents PDF, et des données semi-structurées, telles que des fichiers CSV et JSON, ainsi que des données structurées, généralement issues de bases de données relationnelles. Les données structurées sont plus utiles pour l’analyse, mais les données semi-structurées peuvent facilement être importées sous une forme structurée. Les données non structurées peuvent souvent être converties en données structurées à l’aide d’une automatisation intelligente.

Lac de données vs entrepôt de données

La question n’est pas de savoir si vous avez besoin d’un lac de données ou d’un entrepôt de données ; vous avez probablement besoin des deux, mais à des fins différentes. Il est également possible de les combiner, comme nous le verrons bientôt. Pour commencer, examinons les principales différences entre les lacs de données et les entrepôts de données :

Sources de données : les sources de données typiques des lacs de données incluent les fichiers journaux, les données des flux de clics, les publications sur les réseaux sociaux et les données des appareils connectés à Internet. Les entrepôts de données stockent généralement des données extraites de bases de données transactionnelles, d’applications métier et de bases de données opérationnelles à des fins d’analyse.
Schéma stratégique : le schéma de base de données d’un lac de données est généralement appliqué au moment de l’analyse, ce qui est appelé schéma en lecture. Le schéma de base de données pour les entrepôts de données d’entreprise est généralement conçu avant la création du magasin de données et appliqué aux données lors de leur importation. C’est ce qu’on appelle le schéma en écriture.
Infrastructure de stockage : les entrepôts de données disposent souvent de quantités importantes de RAM et de disques SSD coûteux afin de fournir rapidement des résultats de requête. Les lacs de données utilisent souvent des disques rotatifs bon marché sur des grappes d’ordinateurs de base. Les entrepôts de données et les lacs de données utilisent le traitement massivement parallèle (MPP) pour accélérer les requêtes SQL.
Données brutes et données conservées : les données d’un entrepôt de données sont censées être conservées au point où l’entrepôt de données peut être traité comme la « source unique de vérité » pour une organisation. Les données d’un lac de données peuvent ou non être organisées : les lacs de données commencent généralement par des données brutes, qui peuvent ensuite être filtrées et transformées à des fins d’analyse.
Qui l’utilise : les utilisateurs de l’entrepôt de données sont généralement des analystes commerciaux. Les utilisateurs de lacs de données sont plus souvent des data scientists ou des ingénieurs de données, du moins au départ. Les analystes commerciaux ont accès aux données une fois qu’elles ont été conservées.
Type d’analyse : l’analyse typique pour les entrepôts de données comprend l’informatique décisionnelle, les rapports par lots et les visualisations. Pour les lacs de données, l’analyse type comprend le machine learning, l’analyse prédictive, la découverte de données et le profilage des données.

Qu’en est-il des magasins de données ?

Les

data marts sont des bases de données d’analyse limitées aux données d’un seul service ou d’une seule unité commerciale, par opposition aux entrepôts de données, qui regroupent toutes les données relationnelles d’une entreprise sous une forme adaptée à l’analyse. Les magasins de données offrent une analyse efficace en ne contenant que des données pertinentes pour le service ; en tant que tels, ils sont intrinsèquement cloisonnés. Certains affirment que le cloisonnement n’a pas d’importance car l’unité commerciale n’a pas besoin des données exclues. Dans la vraie vie, cela a souvent de l’importance – il y a toujours un supérieur qui a besoin de rapports basés sur des données combinées provenant de plusieurs unités commerciales. C’est l’une des raisons pour lesquelles nous voyons actuellement de nombreux lacs de données et entrepôts de données, et peu de magasins de données.

Requêtes SQL plus rapides sur un lac de données

Lorsque vous stockez des données brutes dans un lac de données, les données peuvent être inutiles pour les analystes commerciaux tant qu’elles n’ont pas été traitées par un ingénieur de données ou un scientifique des données. En plus du filtrage et des transformations de données, les lacs de données ont besoin de catalogues de données, de sécurité des données et de définitions de schéma. Le terme raccourci malheureux pour un lac de données sans ces fonctionnalités est marais de données.

Heureusement, il existe de nombreux outils pour filtrer et organiser les données de votre lac de données. Par exemple, vous pouvez répondre au besoin d’un schéma en créant un metastore Hive au format ORC. Une fois configuré, le métastore prend en charge les requêtes SQL rapides via un moteur SQL massivement parallèle comme Presto. (Le format Optimized Row Columnar est un magasin en colonnes compressé qui est optimisé pour Hive et fonctionne bien avec Presto.)

Apache Spark est un autre moteur SQL massivement parallèle. Bien qu’il peut fonctionner avec le format ORC, il fonctionne encore mieux avec Parquet, un autre magasin en colonnes compressé. Spark peut effectuer un partitionnement vertical et horizontal sur les fichiers Parquet, produisant un plan de requête qui nécessite de lire uniquement les données nécessaires et peut ignorer les données non pertinentes.

Le lac de données

Databricks, la société derrière Spark et MLflow, propose ce qu’ils appellent un lac de données. Selon Databricks, le Lakehouse combine les meilleures fonctionnalités des entrepôts de données et des lacs de données :

Un data lakehouse unifie le meilleur des entrepôts de données et des lacs de données dans une plate-forme simple pour gérer toutes vos données, vos analyses et vos cas d’utilisation de l’IA. Il repose sur une base de données ouverte et fiable qui gère efficacement tous les types de données et applique une approche commune de sécurité et de gouvernance à toutes vos plateformes de données et de cloud.

Delta Lake, que Databricks a publié en open source, constitue la base du Lakehouse en fournissant une fiabilité et des performances élevées directement sur les données du lac de données. La plate-forme Databricks Lakehouse comprend également le catalogue Unity, qui fournit une gouvernance fine pour les données et l’IA. Databricks affirme que son data lakehouse offre 12 fois le rapport prix/performance d’un entrepôt de données.

Lacs de données sur site et dans les clouds publics

Auparavant, les lacs de données étaient mis en œuvre sur site à l’aide de clusters Apache Hadoop d’ordinateurs de base et HDFS (Hadoop Distributed File System). Les clusters Hadoop étaient autrefois une activité importante pour Cloudera, Hortonworks, etc. Cloudera et Hortonworks ont fusionné en 2018, ce qui vous en dit long sur la direction du marché.

Ce qui a changé, c’est le cloud, en particulier les fournisseurs de cloud public à grande échelle Amazon Web Services (AWS), Microsoft Azure et Google Cloud Platform (GCP). Les trois fournisseurs de cloud proposent des produits de stockage de lac de données : Amazon Simple Storage Service (Amazon S3) et Amazon EMR (anciennement Amazon Elastic MapReduce), Azure Data Lake Store (ADLS) et Google Cloud Storage (GCS). Tous trois proposent également des services d’ingestion de données, de traitement de données, d’analyse et d’apprentissage automatique. Il est beaucoup plus facile et rapide de créer, gérer et faire évoluer des lacs de données cloud que de gérer des clusters Hadoop dans votre centre de données ; le compromis est que les dépenses opérationnelles à long terme dans le cloud finiront par devenir importantes.

Analyse et apprentissage automatique pour les lacs de données

Plus tôt, j’ai discuté de l’utilisation de Presto et d’Apache Spark pour des requêtes SQL plus rapides sur des lacs de données. SQL n’est qu’un des moyens d’analyser les données, même s’il est assez important et constitue souvent la première étape. De plus, envisagez des outils de business intelligence tels que Power BI, Tableau ou Qlik ; Notebooks Jupyter, Zeppelin ou Spark ; l’apprentissage automatique, tel que scikit-learn, SparkML ou KNIME ; et l’apprentissage en profondeur, comme TensorFlow ou PyTorch.

Les fournisseurs de cloud à grande échelle disposent de leurs propres outils d’analyse et d’apprentissage automatique qui se connectent à leurs lacs de données.

Amazon Athena utilise Presto et Hive pour effectuer des requêtes SQL sur les données dans Amazon S3. Amazon EMR est une plate-forme de big data cloud pour l’exécution de tâches de traitement de données distribuées à grande échelle, de requêtes SQL interactives et d’applications d’apprentissage automatique à l’aide de cadres d’analyse open source tels qu’Apache Spark, Apache Hive et Presto. Amazon SageMaker est un service entièrement géré pour créer, former et déployer des modèles d’apprentissage automatique.

Azure Data Lake Analytics (ADLA) est un ancien service de travail d’analyse à la demande (sans serveur) qui simplifie le Big Data et utilise U-SQL, c’est-à-dire SQL plus C#. ADLA est remplacé par Azure Synapse Analytics, qui est un service d’analyse illimité qui rassemble l’intégration de données, l’entreposage de données d’entreprise et l’analyse de données volumineuses. Il vous donne la liberté d’interroger des données selon vos conditions, en utilisant des options sans serveur ou dédiées, à grande échelle. Synapse combine un lac de données, un entrepôt de données d’entreprise et une fonctionnalité de requête de données opérationnelles sur place, et peut migrer automatiquement les données et le code depuis ADLA ainsi que les entrepôts de données. Synapse a une intégration profonde avec Azure Machine Learning, Azure Cognitive Services et Power BI.

Google Cloud Storage offre une intégration native avec un certain nombre de services Google Cloud puissants, tels que BigQuery (un entrepôt de données), Dataproc (écosystème Hadoop), Dataflow (analyse de flux sans serveur), l’API Video Intelligence, l’API Cloud Vision et l’IA. Plate-forme.

Dans l’ensemble, vous disposez d’une flexibilité considérable pour choisir le bon outil pour analyser vos données.

Conclusion

Les lacs de données sont devenus beaucoup plus utiles depuis l’époque des clusters Hadoop et de MapReduce. Presto et Apache Spark offrent des processeurs SQL beaucoup plus rapides que MapReduce, grâce au traitement en mémoire et massivement parallèle et aux schémas basés sur Hive. Les lacs de données basés sur le cloud sont beaucoup plus faciles et rapides à créer, à gérer et à faire évoluer que les clusters sur site d’ordinateurs de base. Et les lacs de données cloud s’intègrent étroitement à une large gamme d’outils d’analyse et d’intelligence artificielle.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Tags
Google

Article précédent

15 vulnérabilités les plus exploitées de 2021

Article suivant

Mercury NZ fait son entrée sur les marchés de détail du haut débit et de la téléphonie mobile

Qu’est-ce qu’un lac de données ? Stockage massivement évolutif pour l’analyse de données volumineuses