Nvidia ha risolto i problemi di surriscaldamento dei suoi server rack GB200 NVL72, secondo quanto riportato da Business Insider. Dylan Patel, analista capo di Semianalysis, ha dichiarato che le criticità nel design del sistema di raffreddamento Blackwell, presenti da mesi, sono state in gran parte superate.
Il team di cinque analisti di Semianalysis, che monitora l'industria dei semiconduttori, ha riferito che le modifiche al sistema di raffreddamento richieste da diversi fornitori sono state "minori". I problemi riguardavano in particolare il massiccio rack server a 72 chip di Nvidia, in grado di consumare fino a 120 kW. Le falle nel design hanno costretto l'azienda a rivalutare più volte il progetto a causa del surriscaldamento delle GPU interne, causando ritardi nelle spedizioni dell'hardware GB200.
Il superchip GB200, per esempio, ha un TDP configurabile nell'ordine delle migliaia di watt, con un picco fino a 2.700 watt. Questi valori di potenza estremamente elevati rendono praticamente impossibile l'utilizzo del raffreddamento ad aria in un fattore di forma rack standard.
Per risolvere questo problema fisico, Nvidia ha dovuto ricorrere al raffreddamento liquido per le sue ultime GPU Blackwell. Ciò richiede ai data center di rinnovare le proprie infrastrutture per supportare server raffreddati a liquido.
L'azienda potrebbe creare GPU più lente raffreddate ad aria, come già fa con modelli come l'H200 NVL. Tuttavia, per rimanere all'avanguardia nella corsa alle GPU per l'AI, Nvidia sta dando priorità alle prestazioni a qualsiasi costo, optando per GPU che richiedono migliaia di watt di potenza a scapito del raffreddamento ad aria. Rischioso, ma per ora non sembrano esserci grossi problemi.
La buona notizia è che i problemi di raffreddamento del rack a 72 chip Blackwell di Nvidia sembrano essere minori e sono stati in gran parte risolti. Inoltre, solo il modello di punta a 72 chip sta riscontrando questa problematica.