jeudi, 18 avril 2024

Datafold lance un outil de différenciation open source pour exécuter des contrôles de validation des données

La société de fiabilité des données basée à New York Datafold a introduit un outil de différenciation open source pour aider les entreprises à comparer les bases de données et à effectuer des vérifications pour confirmer la cohérence des informations.

Les entreprises modernes dépendent fortement des pratiques d’extraction, de chargement et de modification (ELT). Les ensembles de données sont extraits des sources, remplis dans un entrepôt de données et après cela, des transformations sont effectuées – comme le nettoyage et l’affinement – pour préparer les informations pour les cas d’utilisation de l’analyse et de la science de l’information.

La tâche est simple, en particulier avec l’utilisation d’outils de duplication et de synchronisation de données tels que Fivetran, Airbyte et Stitch, mais même les enregistrements peuvent être perdus dans systèmes interconnectés en raison de paquets abandonnés, de problèmes de duplication de base et d’erreurs de configuration.

Cela peut affecter l’intégrité des informations et les cas d’utilisation en aval.

Data-diff à la rescousse

Pour résoudre ce défi, Datafold propose le nouveau plan différent. Surnommé « data-diff », le service utilise des algorithmes pour confirmer activement si les données qui ont été remplies dans une installation de stockage de données correspondent à celles de la source ou du point d’extraction.

« Il s’agit d’un bundle python, et le test peut être intégré à n’importe quel outil d’orchestration ou de planification pour déterminer si 2 bases de données contiennent exactement les mêmes informations. S’il y a une inégalité, il détermine très rapidement où c’est et les surfaces qui dans votre CLI ou il peut émerger dans une base de données », a déclaré Gleb Mezhanskiy, PDG et créateur de Datafold. « Cela simplifie la réparation des incohérences et vous assure que vous ne perdez pas ou ne déformez pas les données d’une base de données source. »

L’option peut effectuer immédiatement une comparaison des tables au niveau des lignes. Auparavant, les équipes d’ingénierie des données devaient s’appuyer sur des vérifications manuelles ponctuelles et des examens chronophages à l’aide d’outils de comparaison de fortune pour exclure la possibilité de disparités et s’assurer de la stabilité à 100 % des données dupliquées via des outils de synchronisation.

« Le data-diff open-source compte sur le hachage et les algorithmes de recherche modernes pour déterminer efficacement les lignes divergentes à grande échelle. Il ne faut que 10 secondes de data-diff open-source pour comparer complètement les tables avec 25 millions de lignes, et moins plus de 5 minutes pour effectuer le contraste pour un ensemble de données d’un milliard de lignes – à peu près le même temps qu’il faudrait pour exécuter une question en comptant simplement les lignes », a déclaré Mezhanskiy.

Extension de l’offre existante

L’offre est une extension de l’outil de différenciation original de Datafold, qui effectue un filtrage automatique pour rechercher les modifications (par exemple, le code dbt SQL) après l’étape de modification. Il analyse comment une modification du code affecte les informations produites tout au long du pipeline d’informations.

« La différence de données open source ajoute une fonctionnalité de différenciation entre les bases de données, élargissant ainsi les cas d’utilisation couverts en testant uniquement les transformations ( T d’ELT) à la validation de la duplication d’informations (EL d’ELT) sur l’ensemble de la plate-forme d’informations », a ajouté le PDG.

La solution est disponible à partir d’aujourd’hui sous une licence MIT et comprend des connecteurs pour Postgres, MySQL, Snowflake , BigQuery, Redshift, Presto et Oracle.

L’entreprise, qui a levé 20 millions de dollars en novembre 2021, a déclaré qu’elle prévoyait également d’inviter des facteurs à créer des ports pour d’autres sources de données. Bigeye et Monte Carlo sont d’autres entreprises de premier plan travaillant dans le secteur de la fiabilité des informations.

L’objectif de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques de mieux comprendre sur la technologie commerciale transformatrice et négocier. En savoir plus sur l’abonnement.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici