Il supercomputer Intel Aurora ha più di 21.000 processori

Dopo molti ritardi il supercomputer Intel Aurora sta finalmente prendendo forma. Alimentato da processori Intel Xeon CPU Max e da schede video Intel Xeon GPU Max, il sistema è stato potenziato fino a raggiungere 2 Exaflop di potenza rispetto all'obiettivo iniziale di 1 Exaflop. In questo modo sarà alla pari con il supercomputer Frontier di AMD, che attualmente è il più veloce del pianeta.

Intel ha rivelato che il supercomputer Aurora conterrà un totale di 10.624 nodi che includono 21.248 CPU Xeon basate sulla famiglia Sapphire Rapids-SP e 63.744 GPU basate sul design Ponte Vecchio. Questo sistema sarà una bestia con un'interconnessione fabric di rete che arriva a offreire una larghezza di banda di picco di 2,12 PB/s e una larghezza di banda bisezione di picco di 0,69 PB/s.

Intel dichiara:
Argonne National Laboratory sta guidando una collaborazione internazionale per portare avanti il progetto, che comprende Intel, HPE, laboratori del Dipartimento dell'Energia, università statunitensi e internazionali, organizzazioni no-profit e partner internazionali, come RIKEN.

Inoltre, Intel e Argonne National Laboratory hanno evidenziato i progressi dell'installazione, le specifiche del sistema e i primi risultati delle prestazioni di Aurora:

Intel ha completato la consegna fisica di oltre 10.000 blade per il supercomputer Aurora.

Il sistema completo di Aurora, realizzato con supercomputer HPE Cray EX, avrà 63.744 GPU e 21.248 CPU e 1.024 nodi di archiviazione DAOS. Inoltre utilizzerà la rete Ethernet ad alte prestazioni HPE Slingshot.

I primi risultati mostrano prestazioni di primo piano su carichi di lavoro scientifici e ingegneristici del mondo reale, con prestazioni fino a due volte superiori a quelle delle GPU AMD MI250, un miglioramento del 20% rispetto a H100 nell'applicazione di meccanica quantistica QMPACK e una scalabilità quasi lineare fino a centinaia di nodi.

Si prevede che Aurora offrirà più di 2 exaflop di prestazioni di calcolo di picco in doppia precisione quando sarà lanciata quest'anno.

Per quanto riguarda la memoria, il supercomputer Aurora è dotato di:

10,9 PB di DRAM di sistema DDR5;
1,36 PB di capacità HBM attraverso le CPU;
8,16 PB di capacità HBM attraverso le GPU.

La DRAM di sistema raggiunge una larghezza di banda di picco di 5,95 PB/s, l'HBM della CPU raggiunge una larghezza di banda di picco di 30,5 PB/s e l'HBM della GPU raggiunge una larghezza di banda di picco di 208,9 PB/s. Per quanto riguarda l'archiviazione, il sistema è dotato di una capacità DAOS di 230 PB che funziona con una larghezza di banda di picco di 31 TB/s ed è configurato in un totale di 1024 nodi.

Aurora con l'ultima GPU Intel Data Center Max Series 1550 offre le prestazioni SimpleFOMP più veloci, surclassando gli acceleratori NVIDIA A100 e AMD Instinct MI250X. Intel vanta anche prestazioni relative impressionanti rispetto a questi acceleratori nelle previsioni di Fusion Reactor, nei metodi Monte Carlo (massimizzati) e in QMCPACK (calcolo delle proprietà meccaniche quantistiche).

Durante la presentazione speciale di Intel, McVeigh ha evidenziato alcuni punti relativi gli ultimi risultati in termini di prestazioni:

La GPU Intel Data Center Max Series supera la scheda Nvidia H100 PCIe di una media del 30% su diversi carichi di lavoro, mentre il fornitore di software indipendente Ansys mostra un aumento di velocità del 50% per la GPU Max Series rispetto alla H100 su applicazioni HPC accelerate dall'intelligenza artificiale.
La CPU Xeon Max Series, l'unico processore x86 con memoria ad alta larghezza di banda, presenta un miglioramento del 65% rispetto al processore Genoa di AMD nel benchmark High Performance Conjugate Gradients (HPCG), utilizzando meno energia. L'elevata larghezza di banda della memoria è una delle caratteristiche più richieste dai clienti HPC.
I processori Intel Xeon Scalable di quarta generazione, i più utilizzati nell'HPC, offrono una velocità media superiore del 50% rispetto al Milan4 di AMD, e il più recente cluster HPC Xeon di quarta generazione della società energetica BP offre un aumento delle prestazioni di 8 volte rispetto ai processori della generazione precedente, con una migliore efficienza energetica.
L'acceleratore di deep learning Gaudi2 offre prestazioni competitive nell'addestramento e nell'inferenza del deep learning, con prestazioni fino a 2,4 volte superiori rispetto a Nvidia A100.

Il supercomputer Aurora sarà lanciato nel corso dell'anno con prestazioni di picco che supereranno la barriera dei 2 Exaflops. Il supercomputer eseguirà anche l'ultimo modello Aurora gen AI che offre 1 trilione di parametri per le applicazioni scientifiche.

Fonte dell'articolo: wccftech.com