Le GPU del futuro potrebbero avere consumi molto più ridotti uniti a prestazioni più elevate grazie all'utilizzo di una cache DRAM dedicata. Questo approccio, che sostituisce la tradizionale configurazione HBM (High Bandwidth Memory) potrebbe segnare un punto di svolta per l'industria delle GPU, che comprende settori come quello consumer, delle workstation e dell'intelligenza artificiale.
Questa soluzione migliora le prestazioni delle GPU fino a 12,5 volte e riduce il consumo energetico fino all'89,3% rispetto all'HBM.
Gli autori dello studio hanno sviluppato un nuovo metodo per superare i limiti attuali di capacità e larghezza di banda della memoria delle GPU, rendendo il trasferimento e la gestione dei dati molto più efficienti. Il cuore di questa innovazione risiede nell'impiego di una cache DRAM dedicata sulla memoria della GPU, simile a quella presente negli SSD moderni, ma con l'introduzione della Storage-Class Memory (SCM), una soluzione alternativa più sostenibile rispetto all'HBM tradizionale, offrendo un costo per bit inferiore rispetto alla DRAM.
L'approccio ibrido proposto dai ricercatori combina SCM e DRAM per ridurre il rischio di sovrascrittura della memoria e garantire prestazioni superiori in termini di capacità. La ricerca dettaglia anche modelli di flusso di dati innovativi che facilitano il processo di recupero dei dati dalla SCM, tra cui l'organizzazione della cache DRAM Aggregated Metadata-In-Last-column (AMIL), che accelera l'accesso ai "data tags", riducendo il sovraccarico e mantenendo la protezione Error-Correcting Code (ECC).
In this paper, researchers have proposed an effective DRAM cache for GPUs with Storage-Class Memory to overcome the memory capacity wall while achieving high memory bandwidth.https://t.co/kGQdHyrxFa pic.twitter.com/7oA4fFW3Uk
— Underfox (@Underfox3) March 18, 2024
La cache DRAM è stata progettata per affrontare le limitazioni di latenza e larghezza di banda della SCM, minimizzando i costi aggiuntivi e tenendo conto delle caratteristiche specifiche delle GPU. Per evitare che l'elevato numero di thread GPU saturi la cache DRAM, deteriorando le prestazioni, i ricercatori propongono un metodo di bypass della cache DRAM consapevole della SCM, che tiene conto delle caratteristiche multidimensionali degli accessi alla memoria da parte delle GPU con SCM.
Inoltre, per ridurre il traffico di sondaggio della cache DRAM e aumentare la larghezza di banda effettiva della DRAM con un sovraccarico minimo dei costi, viene proposta una Configurable Tag Cache (CTC) che riutilizza parte della cache L2 per memorizzare i tag delle linee della cache DRAM.
Rispetto all'HBM, questa soluzione migliora le prestazioni fino a 12,5 volte e riduce il consumo energetico fino all'89,3%, offrendo una notevole riduzione del traffico di sondaggio della cache DRAM e del traffico di scrittura SCM rispetto ai lavori precedenti. Tali risultati potrebbero segnare la transizione dell'industria verso soluzioni più innovative per le GPU, a patto che la combinazione di SCM e DRAM diventi una realtà concreta dopo i necessari test di qualificazione.