mardi, 23 avril 2024

Comprendre les compromis avec des cloudops réactifs et proactifs

C’est une évidence. Les systèmes d’opérations proactifs peuvent déterminer les problèmes avant qu’ils ne finissent par être perturbateurs et peuvent apporter des corrections sans intervention humaine.

Par exemple, un outil d’observabilité des opérations, tel qu’un outil AIops, voit qu’un système de stockage produit des I intermittents /O erreurs, ce qui implique que le système de stockage est susceptible de subir une défaillance importante dans un avenir proche. Les données sont automatiquement déplacées vers un autre système de stockage à l’aide de processus d’auto-guérison prédéfinis, et le système est fermé et marqué pour maintenance. Aucun temps d’arrêt ne se produit.

Ces types de procédures proactives et d’automatisations ont lieu des milliers de fois par heure, et la seule façon de comprendre qu’elles fonctionnent est un manque de pannes déclenchées par des défaillances des services cloud, applications, réseaux ou bases de données. Nous comprenons tout. Nous voyons tout. Nous suivons les informations dans le temps. Nous réparons les problèmes avant qu’ils ne finissent par être des interruptions qui nuisent à l’activité.

C’est excellent d’avoir cette technologie pour réduire nos temps d’arrêt à près de zéro. Néanmoins, comme pour tout, il y a de bons et de mauvais aspects dont vous devez tenir compte.

La technologie standard des opérations réactives est simplement celle-ci : elle répond à l’échec et déclenche une chaîne d’occasions, consistant à envoyer des messages aux personnes, à remédier aux problèmes. En cas de panne, lorsque quelque chose cesse de fonctionner, nous comprenons rapidement la cause première et nous la corrigeons, soit avec un processus automatisé, soit en envoyant un humain.

L’inconvénient des opérations réactives est le temps d’arrêt. Normalement, nous ne savons pas qu’il y a un problème jusqu’à ce que nous ayons un échec total – cela fait simplement partie du processus réactif. Habituellement, nous ne surveillons pas les informations relatives à la ressource ou au service, telles que les E/S pour le stockage. Nous nous concentrons simplement sur le binaire : cela fonctionne-t-il ou non ?

Je ne suis pas fan des temps d’arrêt des systèmes basés sur le cloud, donc les opérations réactives semblent être quelque chose à éviter en faveur des opérations proactives. Cependant, dans de nombreux cas que je vois, même si vous avez acheté un outil d’opérations proactives, les systèmes d’observabilité de cet outil peuvent ne pas avoir la capacité de voir les détails requis pour l’automatisation proactive.

Significatif les services cloud hyperscaler (stockage, calcul, base de données, système expert, etc.) peuvent garder un œil sur ces systèmes de manière précise, comme l’utilisation des E/S en cours, la saturation du processeur en cours, etc. Une grande partie des autres innovations que vous l’utilisation sur des plates-formes basées sur le cloud ne peut avoir que des API primitives dans leurs opérations internes et ne peut vous informer que lorsqu’elles fonctionnent et lorsqu’elles ne fonctionnent pas. Comme vous l’avez peut-être pensé, les outils opérationnels proactifs, aussi excellents soient-ils, ne feront pas grand-chose pour ces ressources et services cloud.

Je constate qu’un plus grand nombre de ces types de systèmes fonctionnent sur des clouds publics que vous pouvez penser. Nous investissons beaucoup d’argent dans des opérations proactives sans pouvoir surveiller les systèmes internes qui nous fourniront des indicateurs indiquant que les ressources sont susceptibles de cesser de fonctionner.

De plus, une ressource de cloud public, telle que en tant que systèmes de stockage ou de calcul majeurs, est déjà suivi et géré par le fournisseur. Vous ne contrôlez pas les ressources qui vous sont fournies dans une architecture mutualisée, et les fournisseurs de services cloud font un très bon travail en fournissant des opérations proactives en votre nom. Ils voient les problèmes liés aux ressources logicielles et matérielles bien avant vous et sont bien mieux placés pour résoudre les problèmes avant même que vous ne sachiez qu’il y a un problème. Même avec une conception de responsabilité partagée pour les ressources basées sur le cloud, les fournisseurs prennent sur eux de s’assurer que les services fonctionnent en continu.

Les opérations proactives sont la voie à suivre – ne vous méprenez pas. La difficulté est que dans de nombreux cas, les entreprises font d’énormes investissements dans des opérations cloud proactives avec peu de capacité à en tirer parti. Je dis juste.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici