mercredi, 24 avril 2024

Pas de stockage, pas de pleurs : franchir la barrière du stockage des données

À l’ère de l’information, le big data est de plus en plus considéré comme l’élément vital de toute organisation. Pourtant, parce que les données sont devenues si volumineuses et variées, les analyser correctement reste un énorme défi pour les entreprises.

Ainsi, les informations commerciales que ces données essentielles devraient pouvoir fournir deviennent trop difficiles, chronophages ou coûteuses à produire.

L’un des principaux défis est l’interaction entre les solutions de stockage et d’analyse et leur capacité à gérer ces masses de données. Existe-t-il un moyen de contourner complètement la barrière du stockage ? 

Formats de stockage des données : un historique

La chronologie de cette explosion du Big Data peut être divisée en trois périodes distinctes.

Événement

Transformer 2023

Rejoignez nous à San Francisco les 11 et 12 juillet, où les cadres supérieurs expliqueront comment ils ont intégré et optimisé les investissements dans l’IA pour réussir et éviter les pièges courants.

 


Inscrivez-vous maintenant

Il y a d’abord eu le stockage de fichiers texte simples (TXT), suivi des systèmes de gestion de bases de données relationnelles (RDBMS), permettant une surveillance et une interaction plus faciles avec des ensembles de données plus volumineux.

La troisième étape : les formats open source modernes tels que Parquet et Iceberg, qui collectent plus efficacement les fichiers compressés, résultait du fait que la capacité de ces bases de données était dépassée par les données qu’elles étaient chargées de collecter et d’analyser.

Puis vint le stade où les sociétés de bases de données développèrent leurs propres méthodes de stockage sous la forme de entrepôts de données. Ces formats de stockage de données exclusifs et personnalisés offrent de meilleures performances et permettent aux entreprises dépendantes des données de stocker leurs données de la manière qu’elles peuvent interroger et gérer plus efficacement.

Alors, pourquoi l’analyse des données est-elle toujours à la traîne ?

Le coût des entrepôts de données

Malgré la personnalisation qu’ils permettent, les formats de stockage d’entrepôt de données présentent de nombreux inconvénients.

Les protocoles d’ingestion de ces entrepôts exigent que les données d’entreprise subissent un prétraitement avant d’entrer dans l’entrepôt, ce qui retarde les requêtes. Il n’y a pas non plus de source unique de « vérité », car le processus de synchronisation entre l’emplacement de stockage d’origine (où les données, toujours dans leur format brut, sont créées) et l’entrepôt de données est complexe et peut fausser les ensembles de données.

L’enfermement du fournisseur est un autre problème, car les données interrogeables à partir de n’importe quel emplacement de format de stockage sont souvent fermées pour une seule application, et donc pas toujours compatibles avec les divers outils requis pour l’analyse des données. Enfin, chaque fois qu’un service souhaite analyser ses données, les sources de données doivent être dupliquées, ce qui peut entraîner un partage de données compliqué et parfois impossible entre différents entrepôts de données.

Alors que ces lacunes deviennent de plus en plus importantes et posent de plus grands défis aux entreprises axées sur les données, le quatrième chapitre de la saga du stockage de données se déroule.

Entrez dans le « lac de données ».

Plonger dans le lac de données

Contrairement à un entrepôt de données (et à la nature murée et finie que son nom implique), un lac de données est fluide, profond et largement ouvert. Pour la première fois, les entreprises de toutes tailles peuvent enregistrer des données pertinentes, des images aux vidéos en passant par le texte, dans un emplacement de stockage centralisé, évolutif et largement accessible.

Parce que ces solutions, avec leurs entrées et leurs affluents et la nature fluide de leurs formats de stockage, sont conçues non seulement pour le stockage de données, mais aussi pour le partage et la synchronisation des données, les lacs de données ne sont pas enlisés par la dépendance vis-à-vis d’un fournisseur, problèmes de duplication des données ou complications liées à une source de vérité unique.

Combinés à des formats open source tels que les fichiers Apache Parquet, qui sont suffisamment efficaces pour gérer les besoins d’analyse dans différents silos au sein d’une organisation, ces systèmes de stockage uniques ont permis aux entreprises de travailler avec succès dans une architecture de lac de données et de profiter de ses performances. avantages.

La maison sur le lac

Bien que les lacs de données soient une solution de stockage et d’analyse prometteuse, ils sont encore relativement nouveaux. Par conséquent, les experts du secteur explorent toujours les opportunités potentielles et les pièges que ces capacités de calcul cloud peuvent avoir sur leurs solutions de stockage.

Une tentative pour surmonter les inconvénients actuels consiste à combiner les capacités du lac de données avec l’organisation de l’entrepôt de données et le cloud computing (surnommé le « data lakehouse » – essentiellement un entrepôt de données flottant au sommet d’un lac de données.

Considérez qu’un lac de données n’est qu’une collection de fichiers dans des dossiers : simple et facile à utiliser, mais incapable d’extraire efficacement des données sans une base de données centralisée. Même une fois que les entrepôts de données avaient développé un moyen de lire les formats de fichiers open source, les problèmes de retards d’ingestion, de verrouillage des fournisseurs et d’une source unique de vérité subsistaient.

Les data lakehouses, en revanche, permettent aux entreprises d’utiliser un moteur de traitement de base de données et une couche sémantique similaires pour interroger toutes leurs données telles quelles, sans transformations ni copies excessives, tout en conservant les avantages des deux méthodes.

Le succès de cette approche combinée du stockage et de l’analyse des données est déjà encourageant. Matt Aslett, vice-président et directeur de recherche de Ventana Research, prédit que d’ici 2024, plus des trois quarts des utilisateurs de lacs de données investiront dans des technologies de data lakehouse pour améliorer la valeur commerciale de leurs données accumulées.

Les entreprises peuvent désormais profiter des avantages analytiques des bases de données SQL ainsi que des capacités de stockage flexibles et bon marché d’un lac de données cloud, tout en conservant leurs propres données et en maintenant des environnements analytiques distincts pour chaque domaine.

Quelle est la profondeur de ce lac ?

Alors que les entreprises de données adoptent de plus en plus les data lakehouses cloud, de plus en plus d’ entreprises pourront se concentrer sur l’un des actifs les plus critiques de l’entreprise aujourd’hui : l’analyse complexe sur de grands ensembles de données. Au lieu d’importer leurs données dans des moteurs d’hébergement, les entreprises amèneront en fait des moteurs de haut niveau vers toutes les données dont elles ont besoin d’être analysées.

Grâce aux faibles barrières à l’entrée des data lakehouses cloud, où l’allocation du matériel peut être réalisée en quelques clics, les organisations disposeront de données facilement accessibles pour tous les cas d’utilisation imaginables.

Les fournisseurs de data lakehouse continueront d’être testés sur leur capacité à traiter des ensembles de données plus volumineux sans auto-scaling de leurs ressources de calcul à l’infini. Mais même au fur et à mesure que la technologie progresse, la méthode Data Lakehouse restera cohérente dans sa capacité à permettre l’indépendance des données et à offrir aux utilisateurs les avantages des entrepôts de données et des lacs de données.

Les eaux du lac de données peuvent sembler inexplorées, mais il est de plus en plus évident que les fournisseurs et les entreprises qui ne franchissent pas le pas ne réaliseront pas leur potentiel de données.

.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici