EPYC Milan-X ha prestazioni eccezionali nei test di Microsoft

AMD ha annunciato ufficialmente nella giornata di ieri i nuovi processori EPYC Milan-X 3D V-Cache e altre cose interessanti, come l'Instinct MI200 e una roadmap per Zen 4. Sebbene il produttore di chip non abbia condiviso le specifiche complete dei chip con 3D V-Cache, Microsoft ha pubblicato alcuni benchmark per mostrare l'aumento delle prestazioni atteso.

L’azienda di Redmond si affiderà a Milan-X per le sue nuove VM della serie Azure HBv3, basate su una coppia di processori EPYC 7V73X. Ogni CPU fornisce fino a 64 core Zen 3 per un totale di 128 core per server. Tuttavia, otto core di ogni server sono riservati per l'hypervisor di Azure e altre routine. Di conseguenza, Microsoft offre ai suoi clienti fino a cinque configurazioni con diversi numero di core: 120, 96, 64, 32 e 16. L'EPYC 7V73X sfoggia una velocità di clock di picco di 3,5GHz.

Milan-X offre fino a 768MB di cache L3 (L3 + 3D V-Cache) per chip; quindi, una configurazione a doppio socket fornisce fino a 1,5GB di cache L3 per sistema o, nel caso di Microsoft, per VM. Logicamente, l'allocazione L3 dipenderà dalla configurazione. Ad esempio, la VM a 16 core ha accesso a 96MB per core, mentre la configurazione a 32 core scende a 48MB per ciascuno di essi. Ad ogni modo, la quantità di cache L3 di Milan-X triplica quella degli attuali chip Milan ed è pari a sei volte quella dei precedenti Rome.

L'altro hardware di Azure HBv3 non è stato modificato. Ci sono ancora 448GB di memoria con una larghezza di banda di 350GB/s (misurata con STREAM TRIAD). Inoltre, due SSD NVMe da 900GB forniscono storage ad alta velocità con velocità di lettura e scrittura fino a 6,9GB/s e 2,9 GB/s, rispettivamente, mentre una scheda di rete Mellanox ConnectX-6 fornisce connettività Ethernet a 200Gb/s.

Microsoft ha fatto notare che una cache di grandi dimensioni aumenta ovviamente la larghezza di banda e la latenza della memoria. I carichi di lavoro, come la fluidodinamica computazionale (CFD), l'analisi esplicita a elementi finiti (FEA), la simulazione meteorologica e la simulazione EDA RTL trarranno vantaggio dal generoso aiuto della cache L3 di Milan-X. Al contrario, i carichi di lavoro che dipendono dai FLOPS di picco, velocità di clock o capacità di memoria sono immuni a cache L3 di grandi dimensioni. Questi includono la dinamica molecolare, la progettazione completa di chip EDA e l'analisi implicita a elementi finiti.

I risultati hanno rivelato che Milan-X (EPYC 7V73X) aveva una latenza di memoria inferiore dal 42 al 50% rispetto all'attuale generazione di Milan (EPYC 7V13). Milan-X presenta uno dei maggiori balzi in termini di performance relative per la latenza della memoria da quando i controller sono passati al processore. È essenziale ricordare che i risultati di Microsoft non sono indicativi del fatto che Milan-X abbia migliorato la latenza degli accessi alla DRAM.

Secondo Microsoft, le cache di grandi dimensioni consentono tassi di successo più elevati e offrono risultati ancora migliori. A causa del modo in cui AMD ha impilato la cache L3, l'ampiezza della distribuzione della latenza L3 è aumentata. Tuttavia, Microsoft ritiene che Milan-X dovrebbe avere una latenza di memoria L3 allo stesso livello di Milan. Nel peggiore dei casi, Milan-X potrebbe presentare una latenza L3 leggermente più alta.

Milan-X offre circa 358GB/s di throughput sul benchmark STREAM TRIAD. Il risultato è identico a un server dual-socket convenzionale con chip Milan abbinati a memoria DDR4-3200 in una configurazione single-DIMM-per-channel. Microsoft ha messo alla prova l'EPYC 7V73X e ha confrontato il chip Milan-X con le VM Azure HBv3 con i processori EPYC Milan, EPYC Rome e Xeon Platinum (Skylake). Inutile dire che le prestazioni di Milan-X sono a dir poco sorprendenti. Con la configurazione a 64 VM, Milan-X ha fornito performance fino al 77% superiori rispetto a Milan e sino al 257% maggiori di Skylake con il modello f1_racecar_140 su Ansys Fluent 2021 R1. Con il modello combustor_830m, Milan-X ha registrato prestazioni superiori del 16% e del 131% rispetto a Milan e Skylake, rispettivamente, con la disposizione 128 VM.

Con il benchmark OpenFOAM Motorbike, Milan-X era fino al 60% più veloce di Milan e il 305% più veloce di Skylake con la configurazione a 8 VM. La tendenza era chiara in quanto Milan-X vantava miglioramenti delle prestazioni a due cifre rispetto al suo predecessore e sino a tre cifre nei confronti di Skylake.

Grazie all'implementazione della 3D V-Cache di AMD, l'efficienza di scaling di Milan-X era altissima. Utilizzando il benchmark Ansys Fluent 2021 R1 con il modello f1_racecar_140 come punto di riferimento, Milan-X ha dimostrato un'efficienza di ridimensionamento fino al 200% confrontando 64 VM con 1 VM. In altre parole, 64 VM HBv3 con Milan-X svolgono il lavoro in metà del tempo necessario per un'istanza HBv3. Alla fine della giornata, i clienti beneficiano di una riduzione del 50% dei costi delle VM al ritmo di un tempo di soluzione 127 volte più veloce.

Microsoft è sempre stata orgogliosa di offrire ai propri clienti aumenti lineari delle prestazioni. L'efficienza lineare, considerata il gold standard nell'HPC, si ha quando le prestazioni aumentano linearmente con il costo di una VM (o al numero minimo di VM per risolvere un problema). Con Milan-X, i clienti Microsoft possono usufruire di tempi di soluzione sostanzialmente più rapidi e costi delle VM inferiori.