Le GPU Nvidia si surriscaldano, problemi per i datacenter

Nvidia ridisegna i server NVL72 per risolvere i problemi di surriscaldamento nei datacenter.

Avatar di Luca Zaninello

a cura di Luca Zaninello

Managing Editor

I nuovi processori IA Nvidia Blackwell stanno incontrando seri problemi di surriscaldamento quando installati in server di grande capacità, come riportato da The Information. Queste difficoltà hanno causato ritardi e cambiamenti nel design e preoccupano clienti importanti come Google, Meta e Microsoft riguardo alla possibilità di implementare tempestivamente questi server nei loro centri dati.

Secondo fonti vicine alla situazione, i problemi sorgono quando le GPU Blackwell, progettate per intelligenza artificiale e computazione ad alte prestazioni, vengono utilizzate in server che contengono fino a 72 processori, con un consumo energetico che può raggiungere i 120kW per rack. La necessità di rivedere ripetutamente la progettazione dei rack server è dovuta proprio alla limitazione delle prestazioni delle GPU causata dal surriscaldamento, che rischia anche di danneggiare le componenti hardware.

Per risolvere questi problemi, Nvidia ha richiesto ai suoi fornitori di implementare diverse modifiche progettuali. La collaborazione stretta con fornitori e partner nella revisione ingegneristica mira ad ottimizzare il sistema di raffreddamento dei server. Nonostante tali adeguamenti siano prassi comune nel rilascio di tecnologie su larga scala, hanno contribuito a posticipare ulteriormente le date di spedizione previste.

Un portavoce di Nvidia ha ricordato a Reuters che la cooperazione con i fornitori di servizi cloud e le modifiche progettuali sono parte del processo di sviluppo normale, sottolineando che questo partenariato garantisce che il prodotto finale soddisfi le aspettative in termini di prestazioni e affidabilità.

Originariamente, la produzione in serie delle GPU Blackwell era stata ritardata a causa di un difetto progettuale che comprometteva la resa dei processori. Le unità B100 e B200 di Nvidia sfruttano la tecnologia di packaging CoWoS-L di TSMC, che collega due chiplet attraverso un interposer RDL con ponti di interconnessione in silicio locale (LSI), permettendo velocità di trasferimento dati fino a 10TB/s.

Il preciso allineamento di questi ponti LSI è fondamentale, ma la differenza nelle caratteristiche di espansione termica tra i componenti ha portato a deformazioni e guasti del sistema. Nvidia ha risolto questi problemi modificando gli strati superiori di metallo del silicio delle GPU e la struttura di bump, richiedendo la produzione di nuove maschere.

Le ultime revisioni delle GPU Blackwell sono entrate in produzione di massa solo alla fine di ottobre, permettendo a Nvidia di iniziare le spedizioni da gennaio. I ritardi influenzano inevitabilmente i piani e i prodotti dei clienti Nvidia, specialmente nel settore dell'addestramento dei modelli di linguaggio avanzato.

Leggi altri articoli