Optimisation d'Amazon S3 pour les opérations à grande échelle

Avec plus de 15 ans de fonctionnement constant, Amazon S3 n’est pas seulement l’un des services de stockage d’articles les plus anciens dans l’espace cloud public, mais également le plus largement utilisé. Lancé en 2006 par Amazon Web Provider (AWS), le service est devenu un élément important de la société connectée, travaillant silencieusement dans les coulisses pour sauvegarder les éléments numériques que la personne moyenne utilise probablement tous les jours.

En fait, Amazon Simple Storage Service – communément appelé S3 – est tellement ancré dans nos routines quotidiennes qu’il est incroyablement probable que pratiquement toutes les entreprises qui entretiennent une relation avec AWS aient également utilisé S3.

Si vous jetez un œil à certains des logos notables qui font partie de ce foyer, vous verrez des noms de marque Web tels que Netflix, Tumblr, Pinterest, Reddit et Mojang Studios (développeurs de Minecraft) tirant tous parti du l’architecture cloud fournie par le service. Et ces entreprises bénéficient d’un environnement facile à gérer et rentable qui leur fournit ce dont elles ont besoin quand elles le souhaitent.

Cependant, la simplicité évidente de S3 n’éclaire pas toute l’histoire.

La numérisation accrue dans le secteur privé et public a vu des éléments tels que les sites fixes, le matériel de site, le stockage de fichiers, les lacs de données et les puits de données ont tous contribué à ses capacités, avec des entreprises de toutes tailles bénéficiant des meilleurs l’évolutivité des classes, la planification des données, la sécurité et les performances. Et, grâce à la robustesse des données de 99,9999999% pour laquelle il a été développé, Amazon S3 peut conserver tout type de choses.

Compte tenu de ce qui précède, il existe un accord selon lequel, bien que S3 soit facile à utiliser pour les petits applications à grande échelle, les besoins croissants d’analyse de données et d’intelligence artificielle garantissent que l’optimisation à grande échelle sera à la pointe des futures décisions de stockage et de récupération. En outre, les entreprises de toutes tailles auront besoin de comprendre où le mieux pour atteindre une efficacité optimale avec Amazon S3, en particulier en termes de sécurité, de conformité et de connectivité.

Ce qui suit sont quelques directives sur la façon dont mieux pour optimiser Amazon S3 pour vos besoins de stockage d’informations et, surtout, les préoccupations que vous devez poser à un ingénieur numérique.

Comprendre et identifier

Cela pourrait Cela semble facile, mais la meilleure façon d’optimiser quoi que ce soit est de mesurer. En comprenant ce que peut être l’efficacité optimisée et en l’utilisant pour la variété nécessaire de transactions, vous pouvez rapidement comprendre ce que vous voulez d’un service tel que S3.

Dans ce cas, vous devrez comprendre le débit du réseau de transport entre S3 et d’autres services AWS tels qu’Amazon Elastic Cloud Compute Cloud (EC2). Cela inclura l’utilisation du processeur et les besoins en RAM d’EC2, une activité de mesure ou de suivi qui peut être accomplie en ajoutant Amazon CloudWatch dans le mix.

En outre, il est suggéré de déterminer le temps de recherche DNS et d’inclure le latence et vitesses de transfert de données entre les serveurs et les conteneurs S3 dans votre technique de mesure.

Obtenir des informations plus rapidement

En matière d’analyse d’informations, l’expression qui plus rapide l’expédition est généralement meilleure est définitivement en jeu. Comme vous pouvez sortir de tout service qui suit le plan de commerce électronique d’Amazon, S3 a en fait été conçu pour satisfaire la demande des utilisateurs finaux de récupérer des objets avec le temps de latence le plus rapide.

Grâce à sa nature hautement évolutive, S3 permet aux entreprises d’atteindre le haut débit essentiel. La mise en garde est que vous devez avoir un énorme tuyau adéquat pour le bon nombre d’instances, mais c’est quelque chose qui peut être obtenu en utilisant un outil open source tel qu’Amazon S3DistCP.

S3DistCP est une extension d’Apache DistCP – une capacité de copie distribuée développée sur un framework MapReduce et conçue pour déplacer les informations plus rapidement depuis S3.

Vous pouvez en savoir plus sur S3DistCP ici, mais ce que vous devez comprendre, c’est qu’il utilise beaucoup de travailleurs et d’instances pour réaliser le transfert d’informations nécessaire. Dans la communauté Hadoop, par exemple, DistCP est utilisé pour déplacer des informations et cette extension a été optimisée pour fonctionner avec S3, consistant en la possibilité de déplacer des données entre HDFS et S3.

Connexion réseau efficace Choix

Le transfert rapide des informations est pratiquement impossible si la connexion réseau n’est pas à la hauteur. Cela suggère que vous devez faire attention aux performances du réseau et, de manière significative, à l’endroit où le débit peut être amélioré pour gérer les changements importants de performances.

Sur une base mondiale, les noms de seaux S3 sont uniques, mais chaque seau est conservés dans une région sélectionnée lors de la production initiale de l’alternative de stockage. Pour améliorer les performances, il est nécessaire que vous accédiez constamment au compartiment à partir des instances Amazon EC2 qui restent exactement dans la même zone AWS, n’importe où.

Il convient également de noter que les types de circonstances EC2 sont une partie importante de cette procédure. Certains types de circonstances ont une bande passante plus élevée pour la connectivité réseau que d’autres, il convient donc de consulter le site Web EC2Instances pour comparer la bande passante réseau.

Néanmoins, si les serveurs se trouvent dans un centre de données majeur, ils ne font pas partie de Amazon EC2, alors vous pouvez envisager d’utiliser les ports DirectConnect pour obtenir une bande passante considérablement plus importante. Pour mémoire, vous payez un coût par port. Si vous choisissez de ne pas emprunter cette voie, vous pouvez utiliser S3 Transfer Acceleration pour obtenir des données dans AWS plus rapidement.

Pour les documents fixes – les fichiers qui ne changent pas en réaction aux actions d’un utilisateur – nous vous suggérons d’utiliser Amazon CloudFront ou un autre CDN avec S3 comme origine.

Liens horizontaux

L’exigence de répartir les demandes sur différentes connexions est un modèle de style couramment utilisé lorsque vous réfléchissez à la meilleure façon de mettre à l’échelle horizontalement l’efficacité. Ce qui devient beaucoup plus essentiel lorsque vous créez des applications à haute efficacité.

Il est préférable de considérer Amazon S3 comme un énorme système distribué, par opposition à un seul point de terminaison de réseau – la conception traditionnelle du serveur de stockage.

Lorsque nous faisons cela, des performances optimisées peuvent être obtenues en libérant plusieurs demandes simultanées vers S3. Si possible, ces demandes peuvent être complétées par différentes connexions pour tirer le meilleur parti de la bande passante accessible au niveau du service lui-même.

Byte-Range Apporte

Comme nous comprenez, il y aura des moments où le client n’aura besoin que d’un pourcentage du fichier demandé et non de l’intégralité de l’élément conservé. Lorsque cela se produit, nous pouvons définir un en-tête HTTP de plage dans une requête « GET Item », nous permettant de récupérer une plage d’octets et d’économiser l’utilisation de la bande passante.

Dans la même méthode que nous avons utilisé des connexions simultanées pour développer des performances améliorées grâce à une mise à l’échelle horizontale, nous pouvons nous appuyer ici sur le même concept. Amazon S3 vous permet d’extraire différentes plages d’octets à partir des mêmes éléments, ce qui permet d’obtenir un débit global plus élevé par rapport à une demande d’objet unique.

L’extraction de petites séries d’un élément volumineux permet également à une application d’améliorer les moments de réessai lorsque ces demandes sont perturbées. Pour le contexte, les tailles normales pour les requêtes de plage d’octets sont soit de 8 Mo, soit de 16 Mo.

En outre, si les éléments sont PUT en utilisant un téléchargement en plusieurs parties, il est toujours recommandé de les OBTENIR dans le les mêmes tailles de pièces (ou au moins alignées sur les limites des pièces) pour améliorer les performances. Les requêtes GET peuvent également adresser directement des parties spécifiques – par exemple, GET?partNumber=N

Si vous devez approfondir la façon de récupérer des éléments à partir de S3, il existe une multitude de détails ici.

Demandes de nouvelle tentative

Lorsque vous lancez une procédure d’extraction à grande échelle ou une demande d’extraction de plage d’octets, il est prudent de configurer une alternative de nouvelle tentative sur ces demandes. Dans la plupart des cas, les délais d’attente agressifs et les nouvelles tentatives contribuent à générer une latence constante.

Compte tenu de l’échelle et de la portée d’Amazon S3, la sagesse commune détermine que si la toute première demande est lente, une demande de nouvelle tentative ne va pas seulement suivre un cours différent, mais aussi le plus susceptible de réussir rapidement.

Vitesse de transfert S3

Si l’intention de cet article de blog est de vous offrir des directives et bonnes pratiques, en voici une qui doit être gravée dans le marbre.

Si vous avez besoin de transférer des objets entre de longues distances, utilisez toujours AWS S3 Transfer Accelerator.

Le facteur pour cela est facile; la fonction offre un transfert longue distance rapide, simple et sécurisé des fichiers entre le client et le seau S3 alloué. Cela est dû au fait qu’il utilise des zones périphériques CloudFront dispersées à l’échelle internationale, dont l’utilisation augmente considérablement la vitesse de transfert.

En fait, nous encourageons l’utilisation de l’outil de comparaison de vitesse de transfert Amazon S3 pour comparer les résultats, à la fois avant et après l’utilisation de la fonctionnalité.

Organisation des choses et noms clés

L’amélioration de l’efficacité sur Amazon S3 doit être l’objectif, extrêmement couplé des gens comprennent que sa latence dépend fortement des noms essentiels.

Cela ne doit pas surprendre, car Amazon a en fait construit tout un empire sur des mots-clés et du matériel étiqueté. Dans la solution S3, le fait d’avoir des préfixes similaires avec des noms de clé pour plus de, disons, 100 requêtes par seconde inclut une quantité substantielle de latence.

Comme nous l’avons gardé à l’esprit ci-dessus, il existe un modèle spécifié vers plus opérations à grande échelle dans S3 et il peut être judicieux de penser à ce qui suit :

Utilisez des plans d’appels avec plus d’irrégularités au début des noms de clé pour éviter les « points chauds » internes au sein des installations — par exemple, des codes de hachage alphanumériques ou hexadécimaux dans les 6 à 8 premiers caractères
Incorporer un mécanisme de marquage

L’un ou l’autre aidera à augmenter la vitesse de la demande cependant, il est entendu que toute convention ou système d’appel doit être décidé à l’avance. Cela consisterait naturellement à la fois en une entreprise de dossier et en une identification de clé des objets. De plus, vous devez éviter d’utiliser beaucoup de dossiers internes dans les fichiers car cela peut ralentir l’exploration des informations.

Sécurité

Malgré le fait qu’une efficacité optimale est constamment le résultat souhaité, y parvenir peut être vain si vous avez réellement détourné les yeux des éléments de sécurité du stockage d’informations. Alors que nous nous rapprochons de plus en plus d’une société entièrement numérisée, la cybersécurité et les avantages qui en découlent doivent être pris en compte lorsque vous protégez les compartiments S3.

VentureBeat a signalé qu’une étude de recherche du secteur sur AWS S3 avait révélé que 46 % des les conteneurs avaient en fait été mal configurés et pouvaient être considérés comme « dangereux ». Et bien que l’étude de recherche ait été menée par un fournisseur de services de sécurité cloud et tombe parfaitement dans la catégorie de l’égoïsme, il ne fait aucun doute que les entreprises doivent limiter les menaces partout où elles le peuvent.

À notre avis, le les étapes/questions nécessaires suivantes doivent être requises pour sécuriser les conteneurs S3.

Avant qu’un objet ne soit placé dans S3, vous devez vous demander :

Qui devrait être en mesure de personnaliser ces données ?
Qui doit pouvoir lire ces informations ?
Quelles sont les possibilités de modifications futures sur les informations en lecture/écriture ?

Des préoccupations similaires doivent être posées lorsque vous envisagez les aspects de cryptage et de conformité de l’utilisation de S3 pour le stockage des informations, en particulier : les informations doivent-elles être sécurisées ?

Si le cryptage des informations est requis, comment le cryptage des fichiers les secrets vont-ils être gérés ?

Encore une fois, si vous souhaitez examiner plus en détail la sécurité de S3, il y a ici de nombreux documents.

Conformité

Sécurité et conformité vont de pair. Et tandis que certaines données sont totalement non sensibles et peuvent être partagées par n’importe qui, d’autres informations – dossiers de santé, détails individuels, informations monétaires – ne sont pas seulement exceptionnellement sensibles, mais attirent également quelques personnes au chapeau noir de la communauté numérique.

Dans cet esprit, vous devez vous poser au minimum les questions suivantes pour vous assurer que vous améliorez la conformité :

Y a-t-il des informations stockées qui contiennent identités financières, de santé, de carte de paiement, bancaires ou gouvernementales ?
Les données doivent-elles être conformes aux exigences réglementaires telles que HIPAA ?
Y a-t-il des restrictions de données spécifiques à une région ou localisées qui faut-il y penser ?

De toute évidence, si l’information est sensible, alors tout doit être fait pour s’assurer qu’elle n’est pas compromise en étant conservée dans un seau S3 risqué. Du côté positif, AWS s’exprime sur le fait que « la sécurité du cloud est la plus grande priorité » et les consommateurs sont informés qu’ils bénéficient d’un centre de données et d’une architecture réseau qui ont été développés dans un souci de sécurité.

Réflexions finales

Après environ 15 ans en tant que l’un des principaux représentants du stockage d’articles sûr, simple et sûr et sécurisé, Amazon S3 a en fait accumulé un bilan pour fournir un article qui rend informatique à l’échelle du Web beaucoup plus facile. Cela est dû en grande partie à l’accès simple à l’interface et à la possibilité d’acheter et de récupérer des données à tout moment et de n’importe où sur le Web.

En ce qui concerne les déclarations de définition, c’est difficile à battre, mais sachant que ce n’est pas le cas. suggèrent que les entreprises doivent aborder leurs options de stockage avec une attitude décontractée.

Le stockage de données est souvent le ciment qui attend, il est donc clair que choisir le meilleur partenaire pour vous accompagner dans votre parcours de stockage numérique est un élément crucial. Une fois ce choix fait, l’amélioration de l’efficacité des opérations massives via Amazon S3 doit être une voie plus facile à emprunter.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Optimisation d’Amazon S3 pour les opérations à grande échelle

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction