mercredi, 28 février 2024

Qu’est-ce que Microsoft Fabric ? Une grande pile technologique pour le Big Data

Crédit : Dreamstime

Microsoft Material est un logiciel de bout en bout -plateforme SaaS (a-service) pour l’analyse des données. Il est développé autour d’un lac d’informations appelé OneLake et combine des éléments nouveaux et existants de Microsoft Power BI, Azure Synapse et Azure Data Factory dans un environnement intégré unique.

Microsoft Fabric englobe le mouvement des informations, le stockage des données, l’ingénierie de l’information, l’intégration des données, la science de l’information, l’analyse en temps réel et l’intelligence des services, ainsi que la sécurité de l’information, la gouvernance et la conformité. À bien des égards, Fabric est la réponse de Microsoft à Cloud Dataplex. Au moment d’écrire ces lignes, Fabric reste en avant-première.

Microsoft Material s’adresse à tout le monde : administrateurs, concepteurs, ingénieurs de l’information, data scientists, analystes de l’information, experts d’entreprise et superviseurs. Actuellement, Microsoft Fabric est activé par défaut pour tous les locataires Power BI.

Microsoft Fabric Data Engineering combine Apache Stimulate avec Information Factory, permettant d’organiser et d’orchestrer des blocs-notes et des tâches Spark. Fabric Data Factory intègre Power Question à l’évolutivité et à la puissance d’Azure Data Factory et prend en charge plus de 200 adaptateurs d’informations. Fabric Information Science s’intègre à Azure Machine Learning, qui permet le suivi des expériences et le registre des conceptions. Material Real-Time Analytics comprend un flux d’événements, une base de données KQL (Kusto Question Language) et un ensemble de requêtes KQL pour exécuter des questions, afficher les résultats des requêtes et personnaliser les résultats des requêtes sur les informations. Si KQL est nouveau pour vous, bienvenue dans le club.

Écran d’accueil d’IDG Microsoft Material. Notez les liens vers Power BI, Data Factory, Data Activator, Synapse Data Engineering, Synapse Data Science, Synapse Data Warehouse et Synapse Real-Time Analytics.

OneLake

OneLake est un lac d’informations combiné et logique pour l’ensemble de votre organisation ; chaque locataire dispose d’un et d’un seul lac de données. OneLake est créé pour être le lieu unique pour toutes vos informations analytiques, exactement de la même manière que Microsoft souhaite que vous utilisiez OneDrive pour tous vos fichiers. Pour rationaliser l’utilisation de OneLake depuis votre bureau, vous pouvez installer l’explorateur de fichiers OneLake pour Windows.

OneLake est construit sur Azure Data Lake Storage (ADLS) Gen2 et peut prendre en charge tout genre de fichier. Tous les éléments de données Material, tels que les installations de stockage d’informations et les data lakehouses, stockent leurs informations immédiatement dans OneLake au format Delta (basé sur Apache Parquet), qui est également le format de stockage utilisé par Azure Databricks. Peu importe que les données aient été produites par Glow ou SQL, elles restent dans un seul lac de données au format Delta.

La création d’un lac de données OneLake est relativement simple : passez à la vue Data Engineering, créez et appelez un tout nouveau Lakehouse et soumettez des fichiers CSV à la partie fichier du lac d’informations.

IDG Dans la vue d’ingénierie de l’information de Microsoft Fabric, vous pouvez voir vos fichiers et vos tables. . Les tables restent au format Delta Parquet. Lorsque vous choisissez un fichier, vous obtenez un menu à trois points pour effectuer des opérations sur ce fichier, par exemple le remplir dans un tableau.

De là à avoir des tables dans la maison du lac peut (actuellement) représenter plus de travail que vous ne le pensez. On pourrait penser que le produit de menu contextuel Charger vers les tables ferait le travail, mais il a échoué lors de mes tests préliminaires. J’ai finalement découvert, avec l’aide de Microsoft Assistance, que la fonction Charger dans les tables ne sait pas (depuis que j’écris ces lignes) comment gérer les titres de colonnes avec des espaces ancrés. Aie. Toutes les maisons de lac concurrentes gèrent cela sans inconvénient, mais Fabric est toujours en avant-première. Je suis assuré que cette fonctionnalité sera incluse dans le produit lancé.

J’ai réussi à faire fonctionner cette conversion avec des fichiers CSV nettoyés. J’ai également pu exécuter une requête Glow SQL dans un notebook plutôt qu’une nouvelle table.

Les notebooks IDG Fabric prennent en charge à la fois Python et SQL. Ici, nous utilisons Glow SQL pour afficher le contenu d’une table Lakehouse OneLake.

Glow n’est pas la seule méthode pour exécuter des questions SQL sur les tables Lakehouse. Vous pouvez accéder à n’importe quelle table au format Delta sur OneLake via un point de terminaison SQL, qui est produit immédiatement lorsque vous déployez Lakehouse. Un point de terminaison SQL fait référence à la même copie physique de la table Delta sur OneLake et offre une expérience T-SQL. Il utilise essentiellement Azure SQL au lieu de Stimulate SQL.

Comme vous le verrez plus tard, OneLake peut héberger des installations de stockage de données Synapse en plus des Lakehouses. Les installations de stockage de données conviennent mieux aux utilisateurs dotés de capacités T-SQL, bien que les utilisateurs de Glow puissent également lire les données dans les entrepôts. Vous pouvez développer des raccourcis dans OneLake afin que les Lakehouses et les installations de stockage d’informations puissent accéder aux tables sans dupliquer les données.

Power BI

Power BI a été étendu pour être capable de gérer les tables OneLake Lakehouse (Delta). Comme toujours, Power BI peut effectuer une analyse standard des informations de service intelligence et générer des rapports, et s’intégrer à Microsoft 365.

IDG Un rapport Power BI dans Microsoft Material. Pratiquement toutes les fonctions importantes de Power BI ont été reprises dans Fabric.

Information Factory

Data Factory dans Microsoft Material intègre l’intégration des données des citoyens et capacités d’intégration de l’information professionnelle. Il se connecte à une centaine de bases de données relationnelles et non relationnelles, de Lakehouses, d’installations de stockage de données et d’interfaces génériques. Vous pouvez importer des données avec des flux de données, qui permettent des modifications d’informations à grande échelle avec quelque 300 améliorations, utiliser l’éditeur Power Query et appliquer l’extraction de données par exemple de Power Query.

J’ai essayé un flux de données qui a importé et modifié 2 tables de l’ensemble de données Northwind. J’ai été impressionné par les capacités jusqu’à ce que la dernière étape de publication cesse de fonctionner. OK, il reste en aperçu.

Vous pouvez également utiliser des pipelines d’informations pour produire des workflows d’orchestration de données qui regroupent des tâches telles que l’extraction de données, le chargement dans des banques d’informations choisies, l’exécution de notebooks et l’exécution de scripts SQL. J’ai importé avec succès deux exemples d’ensembles de données, les jours fériés et les trajets en taxi de New York, et je les ai enregistrés dans des lacs de données. Je n’ai pas évalué la possibilité de mettre à jour le pipeline de temps en temps.

Si vous avez besoin de regrouper des données sur site dans OneLake, vous serez en mesure de produire une entrée de données sur site et de la lier à un flux de données. . Comme solution de contournement à court terme, vous pouvez copier vos informations sur site dans le cloud et les charger à partir de là.

Data Activator

Selon Microsoft , Data Activator est une expérience sans code dans Microsoft Fabric permettant d’agir automatiquement lorsque des modèles ou des conditions sont découverts dans la modification des données. Il surveille les données des rapports Power BI et des produits Eventstreams, lorsque les informations atteignent des limites spécifiques ou correspondent à d’autres modèles. Il prend ensuite automatiquement les mesures appropriées, comme informer les utilisateurs ou lancer les flux de travail Power Automate.

Les cas d’utilisation courants de Data Activator incluent la diffusion d’annonces lorsque les ventes dans les magasins comparables diminuent, et l’information des superviseurs de magasin. pour éviter que les aliments ne fonctionnent plus dans les congélateurs des épiceries avant qu’ils ne se détériorent, et signaler aux équipes de compte lorsque les clients sont en retard, avec des limites de temps ou de valeur adaptées par client.

Ingénierie des données

La majorité de ce dont j’ai parlé dans la section OneLake ci-dessus relève en fait de l’ingénierie des données. L’ingénierie des données dans Microsoft Fabric comprend Lakehouse, les significations des tâches Apache Spark, les blocs-notes (en Python, R, Scala et SQL) et les pipelines d’informations (abordés dans la zone Data Factory ci-dessus).

Science des données

La science des données dans Microsoft Fabric comprend des modèles d’apprentissage automatique, des expériences et des blocs-notes. Il contient environ une demi-douzaine d’échantillons de blocs-notes. J’ai choisi d’exécuter l’exemple de modèle de prévision de séries chronologiques, qui utilise Python, la bibliothèque Prophet (de Facebook), MLflow et la fonction Fabric Autologging. L’exemple de prévision de séries chronologiques utilise l’ensemble de données d’informations sur les ventes de propriétés résidentielles ou commerciales de New York, que vous téléchargez puis versez dans un lac d’informations.

Prophet utilise un modèle de saisonnalité conventionnel pour les séries chronologiques. prévisions, un départ rajeunissant de la tendance vers des modèles d’apprentissage automatique et d’apprentissage profond de plus en plus compliqués. La durée globale d’exécution de l’ajustement et des prévisions était de 147 secondes, pas tout à fait trois minutes.

Prédiction IDG des ventes de propriétés résidentielles ou commerciales après avoir ajusté les informations sur les ventes de propriétés à New York à un modèle de saisonnalité Prophet.

Installation de stockage de données

Installation de stockage de données dans Microsoft Fabric vise à assembler les mondes des lacs de données et des installations de stockage d’informations. Ce n’est pas la même chose que le point de terminaison SQL du Lakehouse : le point de terminaison SQL est un entrepôt en lecture seule qui est automatiquement généré lors de la production à partir d’un Lakehouse dans Microsoft Material, tandis que l’installation de stockage de données est un « standard ». installation de stockage de données, ce qui implique qu’elle prend en charge toutes les capacités transactionnelles T-SQL comme n’importe quel entrepôt d’informations d’entreprise.

Contrairement au point de terminaison SQL, où les tables et les informations sont automatiquement produites, Data Warehouse vous permet de contrôler totalement la production de tables ainsi que le chargement, la transformation et l’interrogation de vos informations dans l’installation de stockage d’informations à l’aide du site Web Microsoft Material ou des commandes T-SQL.

J’ai créé une toute nouvelle installation de stockage. et l’a rempli avec des exemples d’informations fournies par Microsoft. Cela finit par être un autre ensemble de données sur les trajets en taxi (d’une année différente), mais cette fois pris en compte dans les tableaux d’entrepôt. Microsoft propose également quelques exemples de scripts SQL.

Aperçu des informations sur l’installation de stockage d’informations IDG Fabric pour une table. Notez les messages concernant l’ensemble de données Power BI développé automatiquement en haut.

Vue du modèle IDG Fabric Data Warehouse.

IDG Vue de requête de l’installation de stockage de données Fabric. Microsoft a fourni le script SQL dans le cadre de l’exemple.

Analyse en temps réel

L’analyse en temps réel dans Microsoft Fabric est étroitement liée à Azure Data Explorer, si étroitement que les liens vers les documents pour Real-Time Analytics vont actuellement vers les documents Azure Data Explorer. On m’a assuré que les documents Fabric actuels sont en cours de mise à niveau.

Real-Time Analytics et Azure Data Explorer utilisent les bases de données et les demandes de renseignements Kusto Inquiry Language (KQL). L’interrogation d’informations dans Kusto est beaucoup plus rapide que dans les SGBDR transactionnels, tels que SQL Server, en particulier lorsque la taille des données atteint des milliards de lignes. Kusto doit son nom à Jacques Cousteau, l’explorateur sous-marin français.

J’ai utilisé un exemple Microsoft, Weather Analytics, pour explorer KQL et Real-Time Analytics. Cet exemple comprend un script avec plusieurs questions KQL.

IDG La galerie d’exemples Fabric Real-Time Analytics utilise actuellement un demi-lot d’exemples, avec des tailles d’informations allant de 60 Mo pour l’analyse des conditions météorologiques à presque 1 Go pour les trajets en taxi à New York.

La question KQL pour la capture d’écran ci-dessous est fascinante car elle utilise des fonctions géospatiales et affiche un nuage de points.

// Nous pouvons effectuer des analyses géospatiales avec des fonctions intégrées efficaces dans KQL// Tracer les événements de tempête qui se sont produits le long de la côte sud let SouthCoast = Dynamic( ); StormEvents|tâche BeginLon, BeginLat, EventType|where geo_distance_point_to_line(BeginLon, BeginLat, southCoast) <5000|afficher un diagramme de dispersion avec (kind=map)// Observation : étant donné que ces emplacements sont proches de la côte, la majorité des occasions sont des vents d'orage marins IDG Indépendamment de ses 60 Mo de données, cette requête KQL géospatiale s'est exécutée en un tiers de seconde.

Portée étendue et analyses approfondies

Bien que j’ai découvert de nombreux bugs en consultant l’aperçu de Microsoft Material, j’ai également eu une excellente idée de sa vaste portée et de ses capacités d’analyse approfondies. Lorsqu’il sera totalement remanié et étoffé, il pourrait bien concurrencer Cloud Dataplex.

Microsoft Fabric convient-il réellement à tout le monde ? Je n’ai aucune idée. Cependant, je peut affirmer que Fabric fait un excellent travail en vous permettant de visualiser uniquement votre emplacement d’intérêt actuel avec le sélecteur de vue dans le coin inférieur gauche de l’interface, ce qui me rappelle la façon dont Adobe Photoshop sert son différents publics (photographes, retoucheurs, artistes, etc.). Malheureusement, Photoshop a la réputation bien méritée d’avoir non seulement beaucoup de puissance, mais aussi d’être un ours à découvrir. Reste à savoir si Material développera une crédibilité comparable.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici