samedi, 20 avril 2024

Databricks ouvre les sources de son data lakehouse Delta Lake

Dans un effort pour dissiper les doutes émis par ses concurrents du lac de données et de l’entrepôt de données, Databricks a déclaré mardi qu’il s’approvisionnait en open source pour toutes les API de Delta Lake dans le cadre de la version Delta Lake 2.0. L’entreprise a également révélé qu’elle apportera toutes les améliorations de Delta Lake à The Linux Foundation.

Les concurrents de Databricks tels que Cloudera, Dremio, Google (Big Lake), Microsoft, Oracle, SAP, AWS Snowflake, HPE (Ezmeral) et Vertica ont en fait critiqué l’entreprise, mettant en doute si Delta Lake était open source ou propriétaire, supprimant ainsi une part de clients potentiels, ont déclaré des experts.

 » La toute nouvelle annonce devrait fournir une connexion et clarté pour les utilisateurs et aider à contrer la confusion (en partie alimentée par les concurrents) quant à savoir si Delta Lake est exclusif ou open source « , a déclaré Matt Aslett, directeur de recherche à l’étude Ventana Research.

Avec ces déclarations, Databricks met au lit les problèmes des clients et les critiques de la concurrence, a déclaré Doug Henschen, principal expert de l’étude de Constellation Research.

« Dans les offres concurrentielles, des concurrents tels que Snowflake expliqueraient aux consommateurs potentiels que certains aspects de Delta Lake étaient excl usive », a déclaré Henschen, ajoutant que les clients de Databricks peuvent désormais être sûrs que leurs données se trouvent sur une plate-forme ouverte sur laquelle ils ne sont pas enfermés dans Delta Lake.

Databricks décrit Delta Lake comme un data lakehouse, une architecture de données qui fournit à la fois des capacités de stockage et d’analyse, contrairement aux principes des lacs d’information, qui stockent les informations au format natif, et des installations de stockage de données, qui enregistrent les données structurées (souvent au format SQL).

La concurrence s’intensifie marché open source commercial

Avec un nombre croissant d’emplois open source commerciaux sur le marché des lacs de données, Delta Lake de Databricks pourrait se retrouver face à une nouvelle concurrence, consistant en Apache Iceberg, qui fournit des requêtes hautes performances pour de très grandes tables analytiques.

 » Il existe également des emplois open source qui ont récemment commencé à être annoncés, tels que OneHouse pour Apache Hudi et Starburst et Dremio sortent leur Apache Offrandes d’icebergs,  » a déclaré Hyoun Park, expert principal chez Amalgam Insights.

 » Avec la sortie de ces offres, Delta Lake a fait face à la pression d’autres formats de Lakehouse open source pour devenir plus robuste sur le plan fonctionnel alors que le marché des Lakehouse commence à se diviser et que les technologues ont plusieurs options,  » Park inclus.

De nombreux autres joueurs dans cet espace se concentrent sur Apache Iceberg comme alternative aux tables de Delta Lake, a déclaré Aslett de Venatana. Les tables delta, contrairement aux tables conventionnelles qui enregistrent les informations en lignes et en colonnes, peuvent accéder aux transactions ACID (atomicité, cohérence, isolement et résilience) pour conserver les métadonnées afin d’accélérer la saisie des informations.

En avril, Google a révélé la prise en charge de Big Lake et Iceberg, et plus tôt ce mois-ci, Snowflake a révélé la prise en charge des tables Apache Iceberg dans un aperçu personnel.

Les déclarations d’Iceberg, tout comme la technique open source de Databricks, visent à attirer les clients potentiels qui pourrait s’inquiéter de se consacrer à un fournisseur et de la possibilité d’avoir accès à ses propres informations encombrées sur la route, a déclaré Henschen.

Face à la concurrence rétablie, le passage de Databricks à l’open source Delta Lake est un excellente décision, a déclaré Sanjeev Mohan, ancien vice-président de l’étude de recherche chez Gartner.

 » L’annonce par Databricks d’ouvrir toutes les capacités de Delta Lake est une excellente étape pour favoriser une adoption plus large », a déclaré Sanje. ev Mohan, ancien vice-président de la recherche pour les énormes données et analyses chez Gartner.

Delta Lake 2.0 offre des performances de requête plus rapides

Delta Lake 2.0 de Databricks, qui sera entièrement disponible plus tard cette année, devrait offrir une efficacité de requête plus rapide pour l’analyse des données, a déclaré l’entreprise.

Databricks a également publié mardi la deuxième édition de MLflow, une plate-forme open source pour gérer le fabricant de bout en bout découverte du cycle de vie (MLOps).

MLflow 2.0 inclut MLflow Pipelines, qui fournit aux chercheurs de données des modèles de conception prédéfinis et prêts pour la production, basés sur le type de conception qu’ils développent pour leur permettre d’accélérer le développement de modèles sans avoir besoin intervention des ingénieurs de production, a déclaré l’entreprise.

Selon les experts, MLflow 2.0 constituera une option plus mature pour les chercheurs de données, car la production d’intelligence artificielle reste un processus difficile et la traduction des conceptions algorithmiques en production -g rade le code d’application sur des ressources fermement gouvernées continue d’être difficile.

 » Il existe un certain nombre d’options de fournisseurs dans ce domaine, notamment Amazon Sagemaker, Azure Machine Learning, Google Cloud AI, Datarobot, Domino Data, Dataiku, et Iguazio. Mais Databricks agit comme un fournisseur neutre par rapport aux hyperscalers et la technique unifiée de Databricks pour la gestion des informations et des modèles fonctionne comme un différenciateur des fournisseurs MLOps qui se concentrent sur les obstacles de codage et de production de l’opérationnalisation des modèles « , a déclaré Amalgam’s Park.

La décision de publier MLflow 2.0 soulage le cours pour intégrer le streaming et l’analyse de streaming dans les pipelines d’informations de production, a déclaré Henschen, ajoutant que de nombreuses entreprises se débattent avec les MLOps et échouent même après avoir effectivement créé des modèles d’apprentissage automatique.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici