Automatisation des pipelines de données : comment Upsolver vise à réduire la complexité

La proposition de valeur d’Upsolver est fascinante, en particulier pour ceux qui ont des besoins d’informations en continu, des data lakes et des data lakehouses, et qui manquent d’ingénieurs de données accomplis. C’est le sujet d’un livre récemment publié par le PDG d’Upsolver, Ori Rafael,.

Au lieu de coder manuellement les pipelines de données et leurs nombreuses complexités, vous pouvez simplement déclarer le type de changement requis de la source à la cible. Par la suite, le moteur sous-jacent s’occupe de la logistique de le faire en grande partie automatisé (avec l’entrée de l’utilisateur au choix), en canalisant les données sources dans un format avantageux pour les cibles.

Certains pourraient appeler cela de la magie, mais c’est beaucoup plus utile.

« Le fait que vous énonciez votre pipeline de données, plutôt que de coder à la main votre pipeline d’informations, vous permet d’économiser environ 90 % du travail », a déclaré Rafael.

Les entreprises peuvent investir moins de temps dans la structure, le filtrage et la conservation des pipelines d’informations, et plus de temps à récolter les bénéfices de la transformation des données pour leurs cas d’utilisation particuliers. Avec les applications d’aujourd’hui impliquant progressivement des analyses à faible latence et des systèmes transactionnels, la réduction du temps d’action peut avoir un impact significatif sur le retour sur investissement des processus basés sur les données.

La complexité cachée des pipelines d’informations

Pour le inexpérimenté, il existe divers éléments des pipelines de données qui peuvent sembler compliqués ou complexes. Les organisations doivent tenir compte de diverses facettes du schéma, des modèles d’information, de la qualité des données et plus encore avec ce qui est souvent des données d’événements en temps réel, comme celles des recommandations de commerce électronique. Selon Rafael, ces complexités sont facilement classées en 3 catégories : l’orchestration, la gestion du système de fichiers et l’échelle. Upsolver propose l’automatisation dans chacun des emplacements suivants :

Orchestration : les rigueurs d’orchestration des pipelines de données ne sont pas triviales. Ils impliquent d’évaluer l’impact des tâches individuelles sur celles en aval dans un réseau de descriptions de données, de métadonnées et d’informations tabulaires. Ces dépendances sont souvent représentées dans un graphe acyclique dirigé (DAG) long à occuper. « Nous automatisons le processus de production du DAG », a expliqué Rafael. « Ne pas avoir à travailler pour faire les DAG eux-mêmes est un gain de temps considérable pour les utilisateurs. »
Gestion du système de fichiers : Pour cet élément des pipelines d’informations, Upsolver peut gérer certains aspects du format de système de fichiers (comme celui d’Oracle, par exemple). Il existe également des subtilités de compression des fichiers dans des tailles utilisables et de synchronisation de la couche de métadonnées et de la couche de données, toutes fournies par Upsolver pour les utilisateurs.
Échelle : Les multiples aspects de l’automatisation faisant référence à l’échelle pour les informations de canalisation consiste à provisionner des ressources pour garantir des performances à faible latence. « Vous avez besoin d’avoir suffisamment de clusters et d’installations », a expliqué Rafael. « Alors maintenant, si vous obtenez une [augmentation] importante, vous êtes actuellement prêt à gérer cela, au lieu de commencer à peine à augmenter [les ressources] »

Intégration des informations

Outre le développement du cloud computing et la distribution des ressources informatiques hors des 4 murs des entreprises, l’élément moteur le plus important du pipeline d’informations est la combinaison et la collecte d’informations. En règle générale, quelle que soit l’efficacité d’une source d’informations en continu (comme des événements dans un sujet Kafka montrant le comportement de l’utilisateur), son véritable avantage reste la combinaison de ces données avec d’autres types pour une vision globale. Les cas d’utilisation pour cette période vont de la technologie publicitaire aux applications mobiles et aux versions de logiciels en tant que service (SaaS). Rafael a présenté un cas d’utilisation pour un fournisseur de services SaaS d’intelligence de service, « avec de nombreux utilisateurs qui produisent des centaines de milliards de journaux. Ils aimeraient savoir ce que font leurs utilisateurs afin de pouvoir améliorer leurs applications. »

Les pipelines de données peuvent combiner ces informations avec des enregistrements historiques pour une compréhension approfondie qui alimente de tout nouveaux services, fonctions et points d’interaction avec les clients. L’automatisation de la complexité de l’orchestration, de la gestion des systèmes de fichiers et de la mise à l’échelle de ces pipelines d’informations permet aux organisations de basculer entre les sources et les exigences métier pour stimuler le développement. Un autre aspect de l’automatisation pris en charge par Upsolver est l’indexation des lacs d’informations et des data lakehouses pour prendre en charge la canalisation d’informations en temps réel entre les sources.

« Si je regarde une occasion concernant un utilisateur dans mon application en ce moment, je vais aller à l’index et informer l’index de ce que je sais sur cet utilisateur, comment cet utilisateur se comporter avant ? » a déclaré Raphaël. « Nous obtenons cela à partir de l’index. Ensuite, je pourrai l’utiliser en temps réel. »

Ingénierie de l’information

Les parties importantes d’Upsolver pour rendre les pipelines de données déclaratifs au lieu de compliqué incluent son moteur de streaming, son indexation et son architecture. Sa méthode prête pour le cloud comprend « une plate-forme de pipeline d’informations pour le cloud et … nous l’avons découplé afin que le calcul et le stockage ne dépendent pas l’un de l’autre », a déclaré Rafael.

Cette architecture, avec l’automatisation fournie par les autres éléments de l’option, a la possibilité d’améliorer l’ingénierie des données à partir d’un une discipline fastidieuse et chronophage en une discipline qui libère les ingénieurs de données.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Article précédent

MacBook Air 15 pouces d’Apple : tout ce que vous devez savoir

Article suivant

Sharp s’associe à FundUnion pour élargir ses services informatiques

LAISSER UN COMMENTAIRE Annuler la réponse

S'il vous plaît entrez votre commentaire!

S'il vous plaît entrez votre nom ici

Vous avez entré une adresse email incorrecte!

Veuillez entrer votre adresse email ici

Automatisation des pipelines de données : comment Upsolver vise à réduire la complexité

La complexité cachée des pipelines d’informations

Intégration des informations

Ingénierie de l’information

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction