Table des matières
- Quelles sont les marques déposées d’un matériel d’information ?
- Comment les acteurs importants abordent-ils les data fabrics ?
- Comment les start-ups et les challengers développent-ils des supports de données ?
- Y a-t-il quelque chose qu’un matériau de données ne peut pas faire ?
Les services informatiques des entreprises et les spécialistes de l’information qui les composent utilisent une gamme de métaphores pour décrire la manière dont ils collectent et examinent les informations, de l’installation de stockage d’informations au lac d’informations et souvent même une information. Toutes les métaphores capturent un élément de la façon dont les données sont collectées, conservées et traitées avant qu’elles ne soient examinées et présentées.
L’idée d’un matériau de données met l’accent sur la façon dont les bits peuvent emprunter divers chemins qui forment finalement un tout utile. Pour étendre la métaphore, ils suivent, relient et joignent différents fils qui sont tissés ou tricotés ensemble en quelque chose qui capte ce qui se passe dans toute l’entreprise. Ils construisent une photo plus grande.
La métaphore est souvent utilisée en contraste avec d’autres concepts comme un pipeline de données ou un silo de données. Une bonne structure de données n’est pas un chemin unique, ni séparé. Les informations doivent provenir de nombreuses sources dans un réseau complexe.
L’étendue et la complexité du réseau peuvent être importantes. Les informations proviennent de diverses sources, peut-être étendues à travers le monde, avant d’être enregistrées et examinées par divers ordinateurs régionaux. Il existe souvent de nombreux dispositifs de collecte d’informations tels que des terminaux de point de vente ou des unités de détection intégrés dans une chaîne de montage. Les systèmes informatiques locaux agrègent les données et transmettent ensuite les informations à d’autres ordinateurs qui poursuivent l’analyse. En fin de compte, les résultats sont transmis sous forme de rapports ou d’écrans sur des tableaux de bord utilisés par tous les membres de l’entreprise.
Le but de la métaphore est de souligner comment un élément complet et utile est construit à partir de nombreuses sources. Les chercheurs pourraient finir par utiliser d’autres métaphores s’ils sauvegardaient les informations dans un lac d’information ou un énorme système de données. Cette métaphore d’un matériau de données est implicite pour exprimer à quel point le processus d’événement de données peut être compliqué et intégré.
Quelles sont les marques déposées d’un data fabric ?
Les chercheurs de données utilisent une variété d’autres termes avec le matériel de données qui mettent également l’accent sur quelques-unes des caractéristiques les plus cruciales. Quelques-uns des plus courants sont les suivants :
- Holistique— Le matériel d’information aide une entreprise à voir l’image plus grande et à intégrer les informations locales dans quelque chose qui aide le org comprendre ce qui se passe, non seulement dans votre région, mais dans le monde entier.
- Centré sur les données— Les excellents leaders souhaitent que leurs décisions soient guidées par les données, et un bon tissu d’informations prend en charge l’utilisation d’informations solides pour soutenir la réflexion stratégique et tactique.
- Edge — Un certain nombre de capteurs et de points de collecte de données sont indiqués comme étant à la périphérie du réseau, répartis dans l’entreprise et dans le monde où les informations sont collectées pour la première fois . Cela souligne jusqu’où le matériel ira pour collecter des détails utiles. Le calcul Edge lui-même représente un développement plus complet de l’innovation d’entreprise, grâce auquel davantage de données peuvent être conservées et au moins initialement traitées aux emplacements assez éloignés où les informations sont collectées.
- Métadonnées — Une grande partie de la valeur d’un matériel intégré provient des métadonnées ou des données sur l’information. Les métadonnées peuvent fournir le ciment qui relie les informations et les raisonnements qui peuvent être faits sur des identités, des événements, des procédures ou des choses spécifiques. La confidentialité personnelle et les préoccupations connexes peuvent découler de la concentration de ces informations, en particulier si plus d’informations que nécessaire à des fins légitimes sont agrégées et conservées.
- Combinaison— Une grande partie du travail de la production d’un tissu d’informations implique généralement de relier différents systèmes informatiques, souvent de différents fabricants ou architectes, afin qu’ils puissent échanger et agréger des données. Produire les chemins d’interactions et élaborer les différents protocoles est un frein pour les équipes travaillant sur le support d’information. De nombreux formats et procédures standard rendent cela possible, mais il y a généralement de nombreuses petites informations à traiter pour s’assurer que les résultats sont aussi ordonnés et constants que possible.
- Multicloud— Les structures de données sont des applications naturelles pour le cloud computing en raison du fait qu’elles incluent généralement des systèmes situés à divers endroits d’une entreprise et à différents endroits du monde. Il n’est pas rare que les systèmes intègrent également des détails provenant de diverses entreprises ou sources publiques.
- Démocratisation — Lorsque les données sont collectées à partir de nombreuses sources, elles finissent par être plus riches car elles montrent plus d’éléments et de points de vue. Ce point de vue plus large peut améliorer la prise de décision. Souvent, l’idée de démocratisation met également l’accent sur la manière dont les rapports et tableaux de bord agrégés sont partagés plus largement dans l’entreprise afin que toutes les couches de l’organisation puissent utiliser les informations pour prendre des décisions.
- Automatisation— Les matériaux de données remplacent généralement l’analyse manuelle qui nécessiterait des humains pour rassembler les détails et effectuer une grande partie de l’analyse et du traitement manuellement. L’automatisation permet de traiter les informations les plus récentes et les plus actuelles possibles, améliorant ainsi la prise de décision.
Quels sont les obstacles au développement d’une data fabric ? Un certain nombre des problèmes les plus importants pour les architectes de détails et d’informations impliquent une intégration de bas niveau. Les entreprises sont inondées de différents systèmes informatiques qui ont été créés à des moments différents en utilisant différents langages et normes. En raison de cela, une grande partie du travail consiste à trouver une méthode pour produire des connexions, recueillir des informations, puis les transformer en un format constant.
Un défi conceptuel consiste à répartir la charge de travail sur l’ensemble du réseau. Les conceptions peuvent bénéficier du fait qu’une partie de l’analyse est effectuée dans votre région avant qu’elle ne soit signalée et transmise. L’utilisation opportune de l’analyse et de l’agrégation peut économiser du temps et des frais de bande passante réseau.
Les architectes doivent également s’attendre à tout problème causé par des pannes de machine et des retards de réseau et créer des solutions. De nombreuses structures de données peuvent inclure des centaines, des milliers ou peut-être d’innombrables parties différentes et l’ensemble du système peut s’arrêter en attendant l’apparition de l’une d’entre elles. Les meilleurs supports d’information peuvent détecter les échecs, les contourner et créer des rapports et des tableaux de bord utiles à partir des nœuds de travail.
Toutes les difficultés ne sont pas techniques. Le simple fait d’organiser les différentes zones peut être politiquement difficile. Les superviseurs de différentes parties de l’entreprise peuvent souhaiter contrôler les données qu’ils produisent et ne pas souhaiter les partager. Les convaincre de le faire pourrait nécessiter des règlements.
De plus, lorsque les différentes parties du tissu informationnel sont gérées par des sociétés différentes, l’implication d’équipes juridiques peut être nécessaire pour la négociation. Parfois, ces différents domaines se trouvent également dans des pays différents avec des cadres réglementaires et des directives de conformité contrastés. Tous ces problèmes peuvent rendre ennuyeux la construction d’un matériau de données qui relie une entreprise internationale.
Certains développeurs de matériel de données créent des couches uniques de contrôle ou de gouvernance qui établissent et mettent en œuvre des directives sur la façon dont les données circulent. Certains rapports et panneaux de contrôle ne sont proposés qu’aux personnes disposant de l’autorisation appropriée. Ces fonctions de contrôle peuvent être particulièrement utiles lorsqu’un matériel d’information couvre plusieurs entreprises ou organisations.
Un sujet de préoccupation particulier est la confidentialité des détails. Les organisations souhaitent généralement protéger les données individuelles de leurs membres et employés. Une excellente architecture de tissu d’information consiste en des sécurités et des garanties de confidentialité personnelles pour lutter contre la divulgation involontaire ou les acteurs nuisibles. Récemment, les gouvernements fédéraux ont également imposé des directives rigoureuses sur les informations personnellement identifiables (PII) et les tissus d’information devraient être en mesure de gérer la conformité dans tous les domaines.
Comment les acteurs importants abordent-ils les matériaux de données ?
Les grandes entreprises cloud sont optimisées pour développer des entrepôts de données et des lacs à partir d’informations recueillies dans le monde entier. Bien qu’ils n’utilisent pas constamment le terme « matériel de données » pour décrire leurs outils, leur modèle de service convient parfaitement aux entreprises qui souhaitent créer leur propre tissu d’informations à partir d’une large collection de leurs outils. Certains pourraient même vouloir développer des collections multicloud lorsqu’il est logique d’utiliser le cloud pour une partie d’un système. D’autres fois, ils peuvent souhaiter utiliser un autre cloud pour une partie différente ou, peut-être même une collection de fabricants sur site pour un autre composant du système.
IBM fournit une variété de plans d’application logicielle pour la collecte et l’analyse de données qui peuvent être utilisés pour produire un matériau Big Data. Ils se spécialisent dans les grandes entreprises qui nécessitent l’analyse qui peut aider à gérer des groupes souvent diversifiés. Leurs outils couvrent plusieurs clouds et consistent en une variété d’options qui ont été établies pour des applications plus spécifiques. Par exemple, certains supports d’information incluent la science de l’information du Cloud Pak for Data d’IBM ou des conceptions d’intelligence artificielle (IA) développées avec Watson d’IBM.
Les services Web d’Amazon (AWS) fournissent un certain nombre d’outils de collecte et d’analyse d’informations qui peuvent être utilisés pour assembler un matériau de données. Ils fournissent de nombreuses bases de données et options de stockage d’informations pouvant prendre en charge un entrepôt d’informations ou un lac de données. Ils utilisent également des outils bruts pour étudier les données, tels que Quicksight ou DataBrew. Un certain nombre de leurs bases de données, dont Redshift, sont également optimisées pour produire de nombreuses informations fondamentales. AWS héberge également d’autres sociétés telles que Databricks sur leurs serveurs, offrant de nombreuses options pour créer une structure de données à partir des outils de nombreux marchands.
Le cloud de Google offre également une vaste gamme de services de stockage et d’analyse de données qui peuvent être intégrés pour créer un entrepôt de données ou un matériel. Leurs outils vont des outils fondamentaux comme Dataflow pour organiser le mouvement des données à Dataproc pour exécuter des outils open source comme Apache Glow à grande échelle. Google utilise également une collection d’outils d’intelligence artificielle pour développer et affiner les conceptions à partir des informations.
Le cloud Azure de Microsoft utilise également une collection comparable d’outils de stockage et d’analyse d’informations. Leurs outils d’IA comme Azure Cognitive Services et Azure Machine Learning peuvent aider à inclure l’IA dans l’ensemble. Certains de leurs outils, comme Azure Province, sont également créés pour faciliter les tâches pratiques de gouvernance telles que le suivi de la provenance ou l’intégration de nombreux nuages dans les limites politiques et commerciales.
Oracle utilise des outils qui peuvent produire un matériau de données, ou ce qu’ils appellent souvent une grille d’information. L’un d’eux est Coherence, un produit qu’ils considèrent comme un middleware. Il s’agit d’un outil interrogeable qui relie plusieurs bases de données, répertoriant les demandes d’informations, puis collectant et agrégeant les résultats.
Comment les start-ups et les challengers développent-ils des supports d’information ?
Un certain nombre de start-ups et de petites entreprises développent des logiciels qui peuvent aider à orchestrer la circulation des données dans les entreprises. Ils peuvent ne pas développer tous les plans de stockage et de transmission des informations, mais ils peuvent travailler avec d’autres éléments qui répondent aux exigences typiques. De nombreux produits reposent sur des bases de données SQL et les architectes des tissus d’information peuvent choisir entre un certain nombre d’excellents choix qui peuvent être hébergés dans de nombreux clouds ou dans votre région.
Talend, par exemple, fournit un système permettant d’intégrer des sources d’informations dans toute l’entreprise. L’application logicielle peut automatiquement trouver des sources d’information et ensuite intégrer leurs informations dans le matériel de rapport lorsqu’elles parlent les langues d’échange de données de base. Le système fournit également le Talend Trust Rating, qui suit la qualité et la stabilité des informations en s’attendant à des espaces ou à des anomalies susceptibles de corrompre le reporting.
Astronomer propose des variantes gérées du flux open source Apache Air qui rationalisent de nombreux processus. Astronomer appelle la base de leur système « data pipelines-as-code » puisque les concepteurs créent leur matériel en définissant n’importe quelle variété de pipelines de données qui relient les systèmes de science de l’information, les outils d’analyse et le filtrage dans un matériau fusionné.
Nexla décompose le travail de construction d’un data fabric en un travail de mise en relation de leurs Nextsets, outils qui gèrent les tâches brutes de l’entreprise, reconnaissance, analyse, mise en forme, filtrage etc. Une fois les circulations de données définies par les connectant ensemble, le produit principal de Nexla contrôle les flux de données afin que chacun ait accès aux informations dont il a besoin, mais pas aux données qu’il n’est pas autorisé à voir.
Scikiq propose un élément qui offre une couche holistique avec une interface utilisateur sans code, par glisser-déposer pour intégrer la collecte de données. Les outils d’analyse consistent en une grande quantité d’intelligence artificielle pour à la fois préparer et classer les informations diffusées en continu à partir de plusieurs nuages.
Existe-t-il quelque chose qu’un matériau de données ne peut pas faire ?
Les couches d’application logicielle qui créent une structure d’information reposent en grande partie sur des outils de stockage et d’analyse qui sont généralement considérés comme des entités distinctes. Lorsque les systèmes de stockage de données parlent des protocoles de base, comme la plupart d’entre eux le font, les systèmes peuvent bien fonctionner. Si les informations sont enregistrées dans des formats peu courants ou si les systèmes de stockage ne sont pas facilement disponibles, les données ne peuvent pas faire grand-chose.
Bon nombre des problèmes fondamentaux du tissu informationnel peuvent être attribués à des problèmes de collecte de données. Si les données sont bruyantes, périodiques ou cassées, les rapports et les panneaux de contrôle produits par la structure de données peuvent être vides ou tout simplement incorrects. Les excellentes structures de données peuvent découvrir certains problèmes, les filtrer et inclure des avertissements dans leurs rapports, mais elles ne peuvent pas découvrir tous les problèmes.
Les data fabrics dépendent également d’autres bibliothèques et outils pour leur analyse des informations. Même si ceux-ci sont alimentés en données précises, l’analyse n’est pas toujours magique. Les routines statistiques et les algorithmes d’IA peuvent faire des erreurs ou ne pas générer les informations que nous souhaitons recevoir.
En basic, les packages de données matérielles ont pour tâche de rassembler les informations et de les déplacer vers les différents plans logiciels capables de les analyser. Si l’information n’est pas proposée ou si l’analyse est inexacte, le matériel d’information n’est pas responsable.
L’objectif de VentureBeat est d’être une place publique numérique pour les décideurs techniques pour acquérir des connaissances sur l’innovation d’entreprise transformatrice et négocier. Découvrez nos Briefings.
.
Toute l’actualité en temps réel, est sur L’Entrepreneur