vendredi, 19 avril 2024

Databricks contre-attaque

L’été a en fait à peine commencé, mais MongoDB World et Snowflake Summit sont maintenant passés, même si la peinture sèche encore sur toutes les annonces faites à chaque événement. Avec son Information AI Top commençant comme un événement hybride virtuel / en personne à San Francisco aujourd’hui, Databricks ne perd pas de temps à réagir, avec un énorme manifeste de ses propres annonces.

Le cofondateur et technologue en chef de Databricks (et développeur d’Apache Glow), Matei Zaharia, a informé VentureBeat de toutes les déclarations. Ils relèvent de 2 conteneurs : les améliorations des innovations open source sous-jacentes à la plate-forme Databricks, comme Apache Glow, d’une part, et les améliorations, les aperçus et les lancements de disponibilité générale (GA) faisant référence à la plate-forme propriétaire Databricks, d’autre part.

Connexe :

  • MongoDB lance un tout nouveau cloud , versions sur site
  • Databricks vs Snowflake : la course pour développer un guichet unique pour vos informations

Dans cet article, je couvrirai la gamme complète des déclarations. Il y en a beaucoup ici, alors n’hésitez pas à utiliser les sous-titres comme un type d’interface utilisateur à accès aléatoire pour vérifier les éléments qui vous intéressent le plus, puis revenez et lisez le reste si vous avez le temps.

Stimulate Streaming passe à Lightspeed

Étant donné que Spark et ses tâches open source associées sont en fait devenues des normes de facto sur le marché à ce stade, je souhaite commencer par les déclarations dans ce domaine. Tout d’abord, pour Trigger lui-même, Databricks fait 2 déclarations de feuille de route, couvrant le traitement des données en streaming ainsi que la connexion pour les applications clientes Spark. Spark Streaming est en fait un sous-projet de Spark depuis plusieurs années, et sa dernière amélioration significative – une technologie appelée Glow Structured Streaming – GA ‘d il y a 5 ans. Fondamentalement, cela impliquait que la technologie entourant le traitement des informations en continu sur Spark avait en fait souffert, une vérité dont les partisans des plates-formes concurrentes avaient en fait commencé à profiter.

Selon les mots de Zaharia, « Nous n’avions pas une grande équipe de streaming, vous savez, après avoir développé les API de streaming Spark au cours des 3 ou quatre premières années de l’entreprise. » Matei a ajouté : « Nous étions simplement en train de préserver cela et nous avons constaté qu’il s’agissait de l’un des travaux à la croissance la plus rapide sur notre plate-forme ; il se développe plus rapidement que les autres. »

Cette prise de conscience que Spark Streaming nécessitait un peu d’amour a en fait a conduit à un effort global que Databricks appelle Task Lightspeed, pour produire une application de nouvelle génération de Spark Streaming. Databricks déclare que Lightspeed apportera des améliorations de performances et de latence au traitement des données en streaming ; inclure de nouvelles performances, telles que le fenêtrage innovant et la correspondance de motifs ; et facilitent les opérations de streaming en général.

Databricks a formé une nouvelle équipe de streaming pour piloter Lightspeed et a appelé la récente recrue Karthik Ramasamy, anciennement de Twitter et co-créateur d’Apache Pulsar, pour la diriger. Databricks a également récemment recruté Alex Balikov de Google Cloud et l’a en fait sélectionné comme responsable technique senior dans l’équipe de streaming. Attendons maintenant de voir si le traitement des données en continu sur Glow peut finir par être raisonnablement réalisable pour le concepteur typique.

Accès RESTful

En parlant de concepteurs, une autre déclaration de la feuille de route de Glow implique quelque chose appelé Spark Link, qui exécutera essentiellement une API REST pour Glow, à la fois pour les tâches fonctionnelles (comme l’envoi de tâches et la récupération des résultats) et celles de supervision (comme le dimensionnement et l’équilibrage de charge des clusters Glow ou la planification des tâches). Cela supprimera l’exigence stricte d’utiliser des bibliothèques clientes spécifiques à la langue et à la version des programmes et permettra aux développeurs d’applications d’adopter une technique plus lâche pour gérer Glow, en utilisant uniquement HTTP.

Delta Lake s’ouvre

h2>

S’en tenir aux annonces open-source mais aller au-delà d’Apache Glow correct nous amène à 2 projets associés, tous deux domiciliés à la Fondation Linux : Delta Lake et MLflow. Delta Lake est l’une des 3 technologies populaires pour apporter des fonctionnalités de type entrepôt d’informations aux lacs d’informations conservés dans des formats de stockage ouverts comme Apache Parquet. Delta Lake est apparemment resté en tête, mais le format concurrent Apache Iceberg a récemment pris de l’avance, voyant l’adoption par des entreprises comme Dremio, Cloudera et Snowflake. Parmi les principales critiques de Delta Lake, il y a le fait que Databricks en a gardé un contrôle trop strict et a en fait mélangé le format de fichier open source avec la technologie propriétaire de Databricks comme le voyage dans le temps (qui permet de prendre les états précédents d’un ensemble de données un regard sur).

Peut-être en réponse à cette critique, Databricks annonce aujourd’hui Delta Lake 2.0. La toute nouvelle version apporte à la fois des améliorations de performances et une plus grande ouverture. Plus précisément, Databricks déclare qu’il contribue tout Delta Lake au projet open source Linux Structure, afin que tous les utilisateurs du format puissent travailler avec exactement la même base de code et avoir accès à toutes les fonctions.

MLflow, deuxième partie

Le MLflow de tâches open source est à la base des capacités MLOps de Databricks. Bien que des éléments exclusifs, constitués de la boutique d’inclusion de Databricks, existent, les performances basées sur MLflow consistent en l’exécution et la gestion d’expériences d’apprentissage automatique, en plus d’un référentiel de conception avec gestion des versions. Aujourd’hui, Databricks dévoile MLflow 2.0, qui comprendra une toute nouvelle fonctionnalité importante, appelée Pipelines. Les pipelines sont des modèles de conception pour l’établissement d’applications ML, donc tout est prêt pour la production, le suivi, la sélection et la publication. Les modèles – basés sur des fichiers de code et un contrôle de version basé sur Git – sont personnalisés et permettent d’insérer des crochets de surveillance. Sur la base des fichiers de code source, les développeurs peuvent communiquer avec Pipelines à partir de blocs-notes, offrant une grande flexibilité. L’ajout de pipelines doit être une aubaine pour le marché, car de nombreuses entreprises, composées des 3 principaux fournisseurs de cloud, ont soit adopté MLflow comme standard, soit documenté comment l’utiliser avec leurs plates-formes.

Databricks SQL arrive à maturité

Il se passe beaucoup de choses du côté exclusif. Pour commencer, le moteur Photon de Databricks SQL, qui apporte l’optimisation des questions et d’autres fonctions de type entrepôt de données à la plate-forme Databricks, sera publié en GA en juillet. Photon vient tout juste d’apporter des améliorations cruciales, notamment une prise en charge des types d’informations imbriquées et des capacités d’organisation accélérées.

Parallèlement à cela, Databricks publie plusieurs connecteurs open source pour Databricks SQL, pour les langages constitués de Node.js , Python et Go. Databricks SQL obtient également sa propre interface de ligne de commande (CLI) et arborera désormais une fonction de fédération de questions, lui permettant de joindre des tables/ensembles de données entre différentes sources dans la même question. Cette dernière fonction exploite la propre capacité de Spark à interroger plusieurs sources d’informations.

Une chose fascinante à propos de Databricks SQL est qu’il prend en charge différents types de clusters que ceux fournis pour d’autres travaux Databricks. Les clusters uniques, appelés installations de stockage SQL (et anciennement appelés points de terminaison SQL), sont de la taille d’un t-shirt et présentent des circonstances de serveur cloud améliorées pour les questions de type intelligence de service. Néanmoins, une toute nouvelle option, Databricks SQL Serverless, qui permettra aux clients d’interroger leurs informations via Databricks SQL sans créer de cluster du tout, est désormais disponible en avant-première sur AWS.

Delta Live Tables

Envie de plus ? Delta Live Tables, le centre déclaratif basé sur SQL de la plate-forme Databricks pour l’ETL et les pipelines d’informations, bénéficie de nombreuses améliorations, consistant en une toute nouvelle optimisation des performances, une mise à l’échelle améliorée et une capture des informations sur les changements (CDC), pour rendre la plate-forme adaptée aux dimensions à évolution lente. , et leur permettant d’être mis à niveau progressivement, au lieu de partir de zéro, lorsque les hiérarchies dimensionnelles changent.

Le dernier de ces éléments est très important : il permet aux enquêtes analytiques de s’exécuter sans interruption lorsque, par exemple, une certaine branche bureau est reclassé comme étant dans une division locale différente. Les demandes couvrant une période où il se trouvait dans sa division d’origine associeront les ventes de ce bureau à ce département ; les questions couvrant une période ultérieure associeront les ventes au nouveau département, et les demandes couvrant les deux attribueront le total des ventes approprié à chacune des divisions particulières.

Catalogue, salles blanches et marché

La brochure Dataricks Unity sera lancée en GA plus tard cet été, avec de toutes nouvelles fonctionnalités de lignée qui viennent d’être ajoutées. Une nouvelle fonctionnalité « Information Cleanrooms » permettra aux questions couvrant les données de 2 parties différentes d’être traitées dans le cloud sans qu’aucune des parties n’ait besoin d’envoyer ses données à l’autre. Au lieu de cela, les informations de chaque célébration seront prises dans une sorte de séquestre numérique et, à condition que les deux célébrations accordent l’approbation, les tâches utilisant leurs deux informations seront effectuées dans le cloud de Databricks, à partir duquel les données seront ensuite supprimées.

Databricks démarre son propre marché, mais avec quelques distinctions par rapport aux offres normales du marché des données. Pour commencer, les offres de Databricks Market peuvent inclure des options complètes, composées d’applications et d’exemples, plutôt que des ensembles de données uniquement. Et parce que le produit est basé sur Delta Sharing, Databricks déclare qu’il peut être utilisé par des clients qui n’utilisent pas en fait la plate-forme Databricks elle-même.

Où cela nous mène

Comme les données et l’espace analytique se combinent et la toute nouvelle génération de leaders émerge, la concurrence devient féroce. Les avantages pour le consommateur alors que les principaux joueurs commencent à jouer sur le territoire de l’autre, tous visant à fournir des services analytiques, fonctionnels, de streaming, d’ingénierie de données et d’apprentissage automatique dans un style multicloud. Databricks a en fait doublé ses investissements dans certains de ces emplacements et a élargi ses investissements financiers à d’autres. Ce qui est particulièrement intéressant, c’est l’impact en cascade qu’il a sur plusieurs projets open source, notamment Spark, Delta Lake et MLflow.

Est-ce que Databricks permettra éventuellement à des clusters uniques de s’étendre sur de nombreux clouds, et même de se concentrer sur -environnements locaux ? Est-ce que Delta Lake ou Apache Iceberg deviendront l’innovation de base en matière de stockage Lakehouse ? La partie magasin de fonctions Databricks sera-t-elle open source pour compléter l’attrait de MLflow par rapport aux plates-formes MLOps industrielles ? Databricks SQL Serverless va-t-il tuer la franchise de services d’Amazon Athena ? Voir cette zone d’information. Les clients positionneront leurs paris dans les prochaines années, alors que les porteurs de base de Lakehouse construisent leur élan et dessinent leur zone.

La mission de VentureBeat est d’être une entreprise numérique place de la ville pour que les décideurs techniques comprennent la technologie commerciale transformatrice et négocient. En savoir plus sur l’abonnement.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici