mercredi, 28 février 2024

Qu’est-ce que Microsoft Fabric ? Une grande pile technologique pour le Big Data

Microsoft Material est une plateforme SaaS (Software-as-a-Service) de bout en bout pour l’analyse de données. Il est construit autour d’un lac d’informations appelé OneLake et combine des éléments nouveaux et existants de Microsoft Power BI, Azure Synapse et Azure Data Factory dans un environnement intégré unique.

Microsoft Material englobe le mouvement des données, le stockage des données, l’ingénierie de l’information, l’intégration des données, la science de l’information, l’analyse en temps réel et l’intelligence organisationnelle, ainsi que la sécurité de l’information, la gouvernance et la conformité. À bien des égards, Material est la réponse de Microsoft à Cloud Dataplex. Au moment d’écrire ces lignes, Material reste en avant-première.

Microsoft Material s’adresse à tout le monde : administrateurs, concepteurs, ingénieurs de données, chercheurs en information, experts en information, analystes d’entreprise et superviseurs. Actuellement, Microsoft Fabric est autorisé par défaut pour tous les locataires Power BI.

Microsoft Material Data Engineering combine Apache Spark avec Data Factory, permettant de planifier et de gérer des blocs-notes et des tâches de déclenchement. . Fabric Data Factory intègre Power Question à l’évolutivité et à la puissance d’Azure Data Factory et prend en charge plus de 200 adaptateurs de données. Fabric Data Science s’intègre à Azure Machine Learning, qui permet le suivi des expériences et le registre des ordinateurs modèles. Fabric Real-Time Analytics comprend un flux d’événements, une base de données KQL (Kusto Query Language) et un ensemble de requêtes KQL pour exécuter des requêtes, afficher les résultats des questions et personnaliser les résultats des requêtes sur les informations. Si KQL est nouveau pour vous, bienvenue dans le club.

IDG

Écran d’accueil de Microsoft Material. Gardez à l’esprit les liens vers Power BI, Data Factory, Data Activator, Synapse Data Engineering, Synapse Data Science, Synapse Data Storage Facility et Synapse Real-Time Analytics.

OneLake

OneLake est un lac de données unifié et rationnel pour l’ensemble de votre organisation ; chaque occupant dispose d’un et d’un seul lac de données. OneLake est conçu pour être l’emplacement unique de toutes vos informations analytiques, de la même manière que Microsoft souhaite que vous utilisiez OneDrive pour tous vos fichiers. Pour simplifier l’utilisation de OneLake depuis votre bureau, vous pouvez installer l’explorateur de fichiers OneLake pour Windows.

OneLake est construit sur Azure Data Lake Storage (ADLS) Gen2 et peut prendre en charge tout type de fichier. . Néanmoins, tous les composants de données Material, tels que les installations de stockage d’informations et les data lakehouses, conservent immédiatement leurs informations dans OneLake au format Delta (basé sur Apache Parquet), qui est également le format de stockage utilisé par Azure Databricks. Peu importe que les données aient été générées par Spark ou SQL, elles entrent toujours dans un lac de données unique au format Delta.

Produire un lac d’informations OneLake est relativement simple : passez à la vue Data Engineering, produisez et nommez un tout nouveau Lakehouse, et soumettez des fichiers CSV à la partie fichier du lac d’informations.

IDG

Dans la vue d’ingénierie des données de Microsoft Fabric, vous pouvez voir vos fichiers et vos tables. Les tables sont au format Delta Parquet. Lorsque vous sélectionnez un fichier, vous obtenez un menu à trois points pour effectuer des opérations sur ce fichier, par exemple le placer dans une table.

Recevoir de là jusqu’à avoir des tables dans la maison du lac peut (actuellement) être plus travail que vous pourriez prévoir. On pourrait penser que le produit de menu contextuel Charger vers les tables ferait l’affaire, mais il a échoué lors de mes tests préliminaires. J’ai finalement découvert, avec l’aide de l’assistance Microsoft, que la fonction Charger dans les tables ne comprend pas (depuis ces lignes) comment gérer les titres de colonnes avec des zones intégrées. Aie. Toutes les maisons de lac concurrentes gèrent cela sans accroc, mais le matériau est encore en avant-première. Je suis assuré que cette fonctionnalité sera ajoutée dans le produit lancé.

J’ai réussi à faire fonctionner cette conversion avec des fichiers CSV nettoyés. J’ai également pu exécuter une requête Glow SQL dans un bloc-notes plutôt que dans un tout nouveau tableau.

IDG

Les blocs-notes matériels prennent en charge à la fois Python et SQL. Ici, nous utilisons Glow SQL pour afficher le contenu d’une table Lakehouse OneLake.

Spark n’est pas le seul moyen d’exécuter des requêtes SQL par rapport aux tables Lakehouse. Vous pouvez accéder à n’importe quelle table au format Delta sur OneLake au moyen d’un point de terminaison SQL, qui est produit instantanément lorsque vous publiez le Lakehouse. Un point de terminaison SQL référence la même copie physique de la table Delta sur OneLake et utilise une expérience T-SQL. Il utilise essentiellement Azure SQL plutôt que Spark SQL.

Comme vous le verrez plus tard, OneLake peut héberger des entrepôts de données Synapse ainsi que des Lakehouses. Les installations de stockage de données conviennent mieux aux utilisateurs possédant des compétences T-SQL, bien que les utilisateurs de Spark puissent également lire les données dans les entrepôts. Vous pouvez développer des raccourcis dans OneLake afin que les Lakehouses et les entrepôts de données puissent accéder aux tables sans dupliquer les informations.

Power BI

Power BI a en fait été étendu pour pouvoir fonctionner avec OneLake Lakehouse ( Delta). Comme toujours, Power BI peut effectuer une analyse fondamentale des données de renseignement sur les services et générer des rapports, et les intégrer à Microsoft 365.

IDG

Un rapport Power BI dans Microsoft Material. Presque toutes les fonctionnalités cruciales de Power BI ont été transférées dans Fabric.

Information Factory

Information Factory dans Microsoft Fabric intègre des capacités de combinaison d’informations citoyennes et de combinaison d’informations professionnelles. Il est relié à une centaine de bases de données relationnelles et non relationnelles, de Lakehouses, d’installations de stockage d’informations et d’interfaces utilisateur génériques. Vous pouvez importer des données avec des flux de données, qui permettent des améliorations de données à grande échelle avec quelque 300 modifications, utiliser l’éditeur Power Inquiry et utiliser l’extraction d’informations par exemple de Power Question.

J’ai tenté un flux de données qui importait et transformait deux tableaux de l’ensemble de données Northwind. J’ai été impressionné par les capacités jusqu’à ce que l’étape finale de publication cesse de fonctionner. OK, cela reste en aperçu.

Vous pouvez également utiliser des pipelines d’informations pour produire des workflows d’orchestration d’informations qui rassemblent des tâches telles que l’extraction de données, le chargement dans des magasins d’informations choisis, l’exécution de blocs-notes et l’exécution de scripts SQL. J’ai importé avec succès deux exemples d’ensembles de données, les jours fériés et les trajets en taxi de New York, et les ai conservés dans des lacs de données. Je n’ai pas testé la possibilité de mettre régulièrement à niveau le pipeline.

Si vous avez besoin de remplir des données sur site dans OneLake, vous pourrez éventuellement créer une entrée de données sur site et la connecter à un flux de données. Comme solution de contournement à court terme, vous pouvez copier vos informations sur site dans le cloud et les charger à partir de là.

Information Activator

Selon Microsoft, Data Activator est un non- expérience de code dans Microsoft Material pour prendre automatiquement des mesures lorsque des modèles ou des conditions sont découverts dans des données changeantes. Il assure le suivi des données dans les rapports Power BI et les produits Eventstreams, lorsque les données atteignent des seuils particuliers ou correspondent à d’autres modèles. Il prend ensuite instantanément les mesures appropriées, comme alerter les utilisateurs ou démarrer les flux de travail Power Automate.

Les cas d’utilisation normaux d’Information Activator incluent la diffusion de publicités lorsque les ventes dans les magasins comparables diminuent, alertant les superviseurs du magasin de déplacer les aliments des congélateurs des supermarchés qui arrêtent de fonctionner. avant que cela ne se gâte, et informer les équipes de compte lorsque les consommateurs tombent dans des obligations financières, avec des limites de temps ou de valeur adaptées par consommateur.

Ingénierie des données

La majorité de ce dont j’ai discuté dans la section OneLake ci-dessus relève vraiment de l’ingénierie de l’information. L’ingénierie des données dans Microsoft Material comprend Lakehouse, les significations des tâches Apache Glow, les blocs-notes (en Python, R, Scala et SQL) et les pipelines de données (discutés dans la section Data Factory ci-dessus).

Science des données

La science des données dans Microsoft Material se compose de modèles d’intelligence artificielle, d’expériences et de blocs-notes. Il contient environ une demi-douzaine d’exemples de cahiers. J’ai choisi d’exécuter l’exemple de conception de prévision de séries chronologiques, qui utilise Python, la bibliothèque Prophet (de Facebook), MLflow et la fonctionnalité Material Autologging. L’échantillon de prévision de séries chronologiques utilise l’ensemble de données sur les ventes de logements à New York, que vous téléchargez puis chargez sur un lac de données.

Prophet utilise un modèle de saisonnalité conventionnel pour les prévisions de séries chronologiques, une rupture rafraîchissante par rapport au modèle vers des conceptions d’intelligence artificielle et d’apprentissage profond de plus en plus complexes. La durée totale d’exécution de l’ajustement et des prévisions était de 147 secondes, pas tout à fait 3 minutes.

IDG

Prédiction des ventes de propriétés résidentielles ou commerciales après avoir ajusté les informations sur les ventes de propriétés résidentielles ou commerciales à New York à un modèle de saisonnalité Prophet.

Installation de stockage d’informations

Installation de stockage de données dans Microsoft Fabric vise à assembler les mondes des lacs d’informations et des installations de stockage de données. Ce n’est pas la même chose que le point de terminaison SQL du Lakehouse : le point de terminaison SQL est une installation de stockage en lecture seule qui est instantanément générée lors de la production à partir d’un Lakehouse dans Microsoft Material, tandis que l’installation de stockage de données est un  » entrepôt de données « conventionnel », ce qui implique qu’il prend en charge toutes les capacités transactionnelles de T-SQL comme n’importe quelle installation de stockage d’informations d’entreprise.

Plutôt que le point de terminaison SQL, où les tables et les informations sont immédiatement développées, l’installation de stockage de données vous met pleinement en contrôle du développement de tables et du chargement, de la transformation et de l’interrogation de vos informations dans l’entrepôt de données à l’aide du portail Microsoft Material ou des commandes T-SQL.

J’ai développé une toute nouvelle installation de stockage et je l’ai remplie de Microsoft- fourni des exemples d’informations. Il s’agit d’un autre ensemble de données sur les trajets en taxi (d’une année différente), mais cette fois pris en compte dans les tableaux des installations de stockage. Microsoft fournit également quelques exemples de scripts SQL.

IDG

Aperçu des données de l’installation de stockage de données matérielles pour une table. Notez les messages concernant l’ensemble de données Power BI immédiatement produit en haut.

IDG

Vue de conception de l’installation de stockage d’informations matérielles.

IDG

Vue de requête de l’installation de stockage de données matérielles. Microsoft a fourni le script SQL dans le cadre de l’exemple.

Analyse en temps réel

L’analyse en temps réel dans Microsoft Fabric est étroitement liée à Azure Data Explorer, si soigneusement que les liens administratifs pour Real-Time Analytics, accédez actuellement aux documents Azure Data Explorer. J’ai été assuré que les documents matériels réels sont mis à jour.

Real-Time Analytics et Azure Data Explorer utilisent les bases de données et les demandes de renseignements Kusto Inquiry Language (KQL). L’interrogation de données dans Kusto est beaucoup plus rapide que dans les SGBDR transactionnels, tels que SQL Server, en particulier lorsque la taille des informations atteint des milliards de lignes. Kusto doit son nom à Jacques Cousteau, l’explorateur sous-marin français.

J’ai utilisé un exemple Microsoft, Weather Analytics, pour explorer KQL et Real-Time Analytics. Cet exemple inclut un script avec plusieurs requêtes KQL.

IDG

La galerie d’exemples Fabric Real-Time Analytics fournit actuellement un demi-lot d’exemples, avec des tailles d’informations allant de 60 Mo pour l’analyse météorologique à près de 1 Go pour New York. trajets en taxi urbain.

La requête KQL pour la capture d’écran ci-dessous est intrigante car elle utilise des fonctions géospatiales et affiche un nuage de points.

// Nous pouvons effectuer des analyses géospatiales avec des fonctionnalités efficaces. fonctions intégrées dans KQL// Tracer les événements de tempête survenus le long de la côte sud let SouthCoast = Dynamic( ); StormEvents|job BeginLon, BeginLat, EventType|where geo_distance_point_to_line(BeginLon, BeginLat, southCoast) <5000|afficher un diagramme de dispersion avec (kind=map)// Observation : étant donné que ces emplacements sont proches de la côte, la majorité des occasions sont des vents d'orage marins IDG

Malgré les 60 Mo de données disponibles, cette enquête géospatiale KQL s’est exécutée en un tiers de seconde.

Large portée et analyses approfondies

Alors que j’ai trouvé de nombreux bugs lors de l’exploration Après l’aperçu de Microsoft Material, j’ai également eu une excellente idée de sa vaste portée et de ses capacités d’analyse approfondies. Lorsqu’il sera totalement remanié et étendu, il pourrait bien concurrencer Cloud Dataplex.

Microsoft Material est-il vraiment adapté à tout le monde ? Je n’en ai aucune idée. Je peux déclarer que Fabric fait un excellent travail en vous permettant de voir uniquement votre zone d’intérêt existante avec le sélecteur de vue dans le coin inférieur gauche de l’interface utilisateur, ce qui me rappelle la méthode qu’Adobe Photoshop sert publics variés (photographes professionnels, retoucheurs, artistes…). Photoshop a la réputation bien méritée non seulement d’avoir beaucoup de puissance, mais aussi d’être un ours à apprendre. Reste à savoir si Fabric établira une crédibilité comparable.

Ensuite, regardez ceci :

  • Le meilleur logiciel open source de 2023
  • Les certifications en programmation sont-elles toujours importantes ?
  • Le cloud computing n’est plus un jeu d’enfant
  • Qu’est-ce qui est génératif L’IA ? Système expert qui développe
  • Codage avec l’IA : conseils et bonnes pratiques des développeurs
  • Pourquoi Wasm est l’avenir du cloud computing

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici