Les moteurs de données de nouvelle génération transforment les performances des métadonnées

interlocking_gears_and_binary_code_abstract_technology_virtual_machines_process_manufacturing_by_krulua_gettyimages-1254571610_2400x1600-100859759-large.jpg

La croissance rapide des cas d’utilisation gourmands en données tels que les simulations, les applications de streaming (comme l’IoT et les flux d’unités de détection) et les informations non structurées a augmenté la valeur des opérations rapides de base de données telles que l’écriture et la lecture d’informations– en particulier lorsque ces applications commencent à évoluer. Pratiquement n’importe quelle partie d’un système peut potentiellement devenir un goulot d’étranglement, des couches de stockage et de réseau en passant par le processeur jusqu’à l’interface graphique de l’application.

Comme nous l’avons vu dans « Améliorer l’efficacité des métadonnées pour les applications à l’échelle du Web », Parmi les principaux facteurs d’embouteillages de données figure la manière dont les opérations d’information sont gérées par le moteur de données, également appelé moteur de stockage – la partie la plus profonde de la pile logicielle qui trie et indexe les données. Les moteurs d’information ont été développés à l’origine pour stocker des métadonnées, les « données cruciales sur l’information » que les entreprises utilisent pour conseiller des films à regarder ou des articles à acheter. Ces métadonnées nous indiquent également quand les informations ont été créées, où précisément elles sont enregistrées, et bien plus encore.

L’inefficacité des métadonnées se manifeste souvent sous la forme de modèles de lecture aléatoires, d’une efficacité de requête lente, d’un comportement de question irrégulier, Les E/S se bloquent et les écritures se bloquent. Au fur et à mesure que ces problèmes s’aggravent, les problèmes provenant de cette couche peuvent commencer à s’infiltrer dans la pile et à révéler à l’utilisateur final, où ils peuvent s’afficher sous forme de lectures lentes, d’écritures lentes, d’amplification d’écriture, d’amplification d’espace, d’incapacité à évoluer, etc. .

Les nouvelles architectures éliminent les goulots d’étranglement

Les moteurs de données de nouvelle génération ont en fait émergé en réponse aux exigences des charges de travail à faible latence et gourmandes en données qui nécessitent une évolutivité et une efficacité substantielles. Ils permettent un réglage plus fin des performances en ajustant trois types d’amplification, ou d’écriture et de réécriture de données, qui sont effectuées par les moteurs : amplification de composition, amplification extraite et amplification de zone. Ils vont également encore plus loin avec des ajustements supplémentaires sur la façon dont le moteur découvre et stocke les informations.

Speedb, notre société, a conçu un tel moteur d’informations pour remplacer le de facto exigence de l’industrie, RocksDB. Nous avons ouvert Speedb au voisinage des concepteurs sur la base de la technologie fournie dans une édition d’entreprise au cours des 2 dernières années.

De nombreux développeurs connaissent RocksDB, un moteur de données commun et attrayant qui est amélioré pour utiliser de nombreux Processeurs pour le travail lié aux E/S. Son utilisation d’une structure de données arborescente LSM (fusion structurée en journaux), comme détaillé dans le post précédent, est fantastique pour gérer efficacement les cas d’utilisation intensive en écriture. Cependant, l’efficacité de lecture du LSM peut être mauvaise si les informations sont accessibles en petits morceaux aléatoires, et le problème s’aggrave à mesure que les applications évoluent, en particulier dans les applications avec de gros volumes de petits fichiers, tout comme les métadonnées.

Optimisations Speedb

Speedb a développé 3 stratégies pour améliorer l’évolutivité des informations et des métadonnées – des techniques qui font progresser l’avant-garde de l’époque où RocksDB et d’autres moteurs d’information ont été développés une décennie plus tôt.

Compaction

Comme les autres moteurs arborescents LSM, RocksDB utilise le compactage pour récupérer de l’espace disque et se débarrasser de l’ancienne variation des données des journaux. Les compositions bonus consomment des ressources de données et ralentissent le traitement des métadonnées, et pour réduire cela, les moteurs de données effectuent le compactage. Les 2 principales techniques de compactage, nivelées et universelles, ont un impact sur la capacité de ces moteurs à gérer efficacement les charges de travail gourmandes en données.

Une brève description de chaque approche met en évidence le défi. Le compactage nivelé supporte très peu de surcharge d’espace disque (la valeur par défaut est d’environ 11 %). Pour les grandes bases de données, il est livré avec une charge d’amplification d’E/S importante. Le compactage nivelé utilise une opération « fusionner avec ». Plus précisément, chaque niveau est fusionné avec le niveau suivant, qui est normalement beaucoup plus grand. En conséquence, chaque niveau inclut une amplification de lecture et d’écriture qui est proportionnelle au rapport entre les tailles des deux niveaux.

Le compactage universel a une amplification d’écriture plus petite, mais finalement la base de données a besoin d’un compactage complet. Ce compactage complet nécessite une surface équivalente ou supérieure à la taille totale de la base de données et peut bloquer le traitement des nouvelles mises à jour. Pour cette raison, le compactage universel ne peut pas être utilisé dans de nombreuses applications hautes performances en temps réel.

L’architecture de Speedb introduit le compactage hybride, qui minimise l’amplification d’écriture pour les grandes bases de données sans bloquer les mises à jour et avec peu de surcharge dans l’espace supplémentaire. La technique de compactage hybride fonctionne comme un compactage universel à tous les niveaux supérieurs, où la taille des informations est petite par rapport à la taille de l’ensemble de la base de données, et fonctionne comme un compactage nivelé uniquement au niveau le plus abordable, où une partie considérable de la mise à jour les informations sont conservées.

Le filtrage Memtable (Figure 1 ci-dessous) montre un gain de 17 % en écrasement et de 13 % en charges de travail combinées de lecture et de composition (90 % de lectures, 10 % de compositions). Les résultats des tests de filtre de fleur séparés révèlent une amélioration de 130 % des lectures manquées dans un travail aléatoire de lecture (Figure 2) et une diminution de 26 % de l’utilisation de la mémoire (Figure 3).

Les tests exécutés par Redis démontrent une efficacité accrue lorsque Speedb a remplacé RocksDB dans l’implémentation de Redis sur Flash. Ses tests avec Speedb étaient également indépendants du rapport lecture/écriture de l’application, montrant que les performances sont prévisibles sur plusieurs applications différentes, ou dans des applications où le modèle d’accès diffère progressivement.

Speedb

Figure 1. Test Memtable avec Speedb .

Speedb

Figure 2. Criblage du filtre Flower utilisant un travail de lecture aléatoire avec Speedb.

Speedb

Figure 3. Criblage du filtre Blossom montrant une diminution de l’utilisation de la mémoire avec Speedb.

Gestion de la mémoire

La gestion de la mémoire des bibliothèques embarquées joue un rôle crucial dans l’efficacité des applications. Les options actuelles sont complexes et comportent en fait trop de critères liés, ce qui rend difficile pour les utilisateurs de les optimiser en fonction de leurs besoins. Le défi augmente à mesure que l’environnement ou la charge de travail change.

Speedb a adopté une approche holistique lors de la mise à niveau de la gestion de la mémoire afin de rationaliser l’utilisation et d’améliorer l’utilisation des ressources.

Un superviseur d’informations impures permet un planificateur de vidage amélioré, qui utilise une technique proactive et améliore l’efficacité totale de la mémoire et l’utilisation du système, sans aucune intervention de l’utilisateur.

En partant de zéro, Speedb rend les fonctions supplémentaires auto-réglables pour atteindre efficacité, évolutivité et facilité d’utilisation pour une variété de cas d’utilisation.

Contrôle de flux

Speedb redessine le système de contrôle de flux de RocksDB pour éliminer les pics de latence des utilisateurs. Son tout nouveau mécanisme de contrôle de débit modifie le débit d’une manière beaucoup plus modérée et ajustée avec plus de précision à l’état du système que l’ancien système. Il ralentit quand c’est nécessaire et accélère quand c’est possible. Ce faisant, les décrochages sont éliminés et l’efficacité de composition est stable.

Lorsque l’origine des inefficacités du moteur de données est enfouie profondément dans le système, la trouver peut être un obstacle. Dans le même temps, plus l’origine est profonde, plus l’effet sur le système est important. Comme le dit le vieil adage, une chaîne est aussi solide que son maillon le plus faible.

Les architectures de moteur d’information de nouvelle génération telles que Speedb peuvent améliorer les performances des métadonnées, réduire la latence, accélérer le temps de recherche et améliorer l’utilisation du processeur. . Au fur et à mesure que les équipes étendent leurs applications hyperscale, la toute nouvelle technologie de moteur d’information sera un élément important pour permettre des architectures modernes agiles, évolutives et performantes.

Hilik Yochai est directeur scientifique et co-fondateur de Speedb, l’entreprise à l’origine du moteur de données Speedb, un remplaçant de RocksDB, et de Hive, la communauté open source de Speedb où les concepteurs peuvent interagir, améliorer et partager leur compréhension et leurs meilleures pratiques sur Speedb et RocksDB. L’innovation de Speedb aide les développeurs à développer leurs opérations d’information hyperscale avec une échelle et des performances illimitées sans compromettre les performances, tout en s’efforçant continuellement d’améliorer la convivialité et la facilité d’utilisation.

— Nouveau

Le forum Tech Online offre un emplacement pour explorer et discuter des technologies d’entreprise émergentes avec une profondeur et une ampleur inégalées. La sélection est subjective, basée sur notre choix des innovations que nous pensons cruciales et qui intéressent le plus les lecteurs d’InfoWorld. InfoWorld n’accepte pas la sécurité marketing pour la publication et se réserve le droit de modifier tout le matériel fourni. Envoyez toutes les demandes à newtechforum@infoworld.com.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Tags
Marketing

Article précédent

La vulnérabilité des drones DJI peut révéler l’emplacement du pilote

Article suivant

Rubrik lance le programme mondial de partenariat Transform

LAISSER UN COMMENTAIRE Annuler la réponse

S'il vous plaît entrez votre commentaire!

S'il vous plaît entrez votre nom ici

Vous avez entré une adresse email incorrecte!

Veuillez entrer votre adresse email ici

Les moteurs de données de nouvelle génération transforment les performances des métadonnées

Les nouvelles architectures éliminent les goulots d’étranglement

Optimisations Speedb

Compaction

Gestion de la mémoire

Contrôle de flux

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction