mardi, 16 avril 2024

Le premier supercalculateur exascale connaît une panne matérielle tous les jours

En bref : Frontier, le supercalculateur le plus puissant du monde, est en ligne mais encore loin d’être opérationnel. Son directeur a vérifié les rapports selon lesquels il connaît une défaillance du système toutes les quelques heures, mais insiste fermement sur le fait que c’est normal.

Frontier reste dans une classe à part. Il dispose de 9 408 nœuds HPE Cray EX235a, chacun alimenté par un processeur AMD Trento 7A53 Epyc à 64 cœurs équipé de 512 Go de DDR4 et de 4 GPU/accélérateurs AMD Impulse MI250X équipés chacun de 128 Go de HBM2e. En résumé, le système compte 602 112 cœurs de processeur et 8 138 240 cœurs de GPU au total, et 4,6 Po de DDR4 et de HBM2e.

En mai, Frontier s’est inscrit auprès du TOP500 en tant que premier supercalculateur à briser la barrière exascale après il a rempli les critères HPL avec une note de 1,102 ExaFlops/s. Depuis lors, le laboratoire national d’Oak Ridge dans le Tennessee, qui gère le supercalculateur, le prépare pour la recherche clinique qui doit commencer en janvier.

Néanmoins, il a été rapporté que le lancement de Frontier pourrait être assailli par des pannes matérielles excessives. À la recherche de réponses, Inside HPC a organisé un entretien avec le directeur du programme à Oak Ridge, Justin Whitt. Dans l’interview, il a confirmé que Frontier subissait des pannes système quotidiennes, mais a affirmé que c’était inévitable dans un système aussi vaste.

 » Le temps moyen entre les pannes sur un système de cette taille est d’heures, pas de jours », a-t-il déclaré. a dit.  » Vous devez donc vous assurer que vous comprenez ce que sont ces échecs et qu’il n’y a pas de modèles à ces échecs qui vous intéressent.  » Whitt a ajouté que passer une journée sans échec  » serait exceptionnel.  »

« Notre objectif est toujours le nombre d’heures. »

déclare Justin Whitt, directeur de programme à l’OLCF

Il a été rapporté que les problèmes matériels étaient déclenchés par le nouveau AMD Impulse MI250X, mais Whitt les a réfutés. Le MI250X est le GPU/accélérateur le plus efficace d’AMD, et il ne l’offre qu’à certains partenaires. Il dispose de 220 UC contenant 14 080 cœurs cadencés à 1700 MHz dans un plan de 500 W.

« Les problèmes couvrent de nombreuses classifications différentes, les GPU n’en sont qu’un », a déclaré Whitt.  » Il y a eu une assez bonne répartition parmi les contrevenants communs des défaillances de pièces qui en ont en fait joué une grande partie. Je ne pense pas qu’en ce moment nous ayons beaucoup d’inquiétude concernant les éléments AMD « , a-t-il ajouté.

 » Nous avons affaire à une grande partie du genre de choses que nous avons vues au début de la vie avec d’autres fabricants que nous avons en fait sortis, donc ce n’est pas trop rare. « 

Whitt a concédé que l’échelle inégalée de Frontier avait en fait rendu le réglage « un peu plus difficile », mais a déclaré qu’ils suivaient toujours le calendrier établi en 2018-19 malgré les retards provoqués par la pandémie.

Rendez-vous sur Inside HPC pour découvrir l’intégralité de l’interview.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici