La GPU Turing di punta si chiama TU102, un core grafico che copre un'area di 754 millimetri quadrati. Rappresenta il cuore della GeForce RTX 2080 Ti. Al suo interno ci sono 18,6 miliardi di transistor prodotti con processo a 12 nanometri FinFET da TSMC.
Di solito Nvidia non presenta la GPU più potente della nuova serie al debutto dell'architettura. L'azienda statunitense ha però voluto puntare molto sul ray tracing in tempo reale, catalizzando l'attenzione degli appassionati, e perciò deve assicurarsi di avere prodotti in grado di assicurare un frame rate adeguato. Per questo è cruciale per Nvidia mettere il TU102 nelle mani dei primi acquirenti.
Rispetto al GP102, la GPU della GTX 1080 Ti per intenderci, TU102 è il 60% più grande e conta un numero di transistor il 55% maggiore. Non si tratta però della GPU Nvidia più grande in assoluto. Anche la più potente GPU Turing è eclissata dal GV100 basato su architettura Volta, un chip da 21,1 miliardi di transistor in un'area di 815 mm2. Quella GPU è stata introdotta nel 2017 in ambito datacenter sulla Tesla V100 e si può rintracciare sulla Titan V e la Quadro GV100.
TU102 si rivolge a un mercato diverso rispetto a GV100, ed è quindi accompagnato da un elenco di risorse differente. È vero che alcuni elementi di Turing derivano dal lavoro svolto da Nvidia in Volta / GV100, ma le parti dell'architettura che non portano vantaggi nel gaming o non sono economicamente convenienti in ambito desktop sono state deliberatamente eliminate.
Ad esempio, ogni Volta Streaming Multiprocessor (SM) include 32 core FP64 per velocizzare i calcoli a doppia precisione, per un totale di 2688 core FP64 all'interno di GV100. Questi core però non sono davvero utili nei giochi e richiedono molto spazio sul die, quindi Nvidia li ha eliminati tutti tranne due da ogni Turing Streaming Multiprocessor.
Di conseguenza le prestazioni a doppia precisione di TU102 sono un trentaduesimo di quelle a singola precisione (FP32). La presenza dei core FP64 in numero minimo è sufficiente a mantenere la compatibilità con i software che ne fanno uso.
Similmente anche gli otto controller di memoria di GV100 collegati a quattro stack di HBM2 sarebbero risultati molto costosi da inserire in una scheda gaming (chiedete ad AMD per conferma). Di conseguenza Nvidia ha optato per usare memoria GDDR6 di Micron, contenendo i costi ma anche garantendo un grande aumento del bandwidth rispetto alle precedenti soluzioni Pascal.
Un processore TU102 completo è dotato di sei Graphics Processing Clusters (GPCs) composti da un Raster Engine e sei Texture Processing Clusters (TPCs). Ogni TPC integra un PolyMorph Engine (pipeline geometrica a funzione fissa) e due Streaming Multiprocessors (SMs). A livello degli SM abbiamo 64 CUDA core, otto Tensor core, un RT core, quattro unità texture, 16 unità load/store, uno spazio per il file di registro di 256 KB, quattro cache L0 instruction e 96 KB di memoria configurabili come cache L1 o memoria condivisa.
Sommando il tutto si ottengono: 72 SM, 4608 CUDA core, 576 Tensor core, 72 RT core, 288 unità texture e 36 PolyMorph engine.
Queste risorse sono alimentate da 12 controller di memoria GDDR6 a 32 bit, ognuno collegato a otto cluster ROP e 512 KB di cache L2 per un bus di memoria complessivo di 384 bit, 96 ROPs e 6 MB di cache L2.
Specifiche tecniche TU102 a bordo della RTX 2080 Ti
Il TU102 a bordo della GeForce RTX 2080 Ti non è il processore nella veste completa. Che Nvidia volesse lasciare spazio a una futura Titan o che sia stata costretta a usare un chip meno potente a causa delle iniziali rese produttive, non lo sappiamo. Di fatto però la RTX 2080 Ti ha due TPC disabilitati, il che ci lascia con una scheda dotata di 4352 CUDA core, 544 Tensor core, 68 RT core, 544 unità texture e 34 PolyMorph engine.
A questo si aggiunge il fatto che Nvidia ha disabilitato uno dei controller di memoria a 32 bit di TU102, creando un bus aggregato a 352 bit che sposta i dati verso 88 ROPs e 5,5 MB di cache L2. Nvidia accompagna la GPU con moduli di memoria Micron MT61K256M32JE-14:A. Sul PCB della RTX 2080 Ti ne contiamo 11, il che lascia un posto vacante.
Cionondimeno il bandwidth di picco teorico è aumentato in modo netto rispetto alle schede di precedente generazione a causa della maggiore velocità della GDDR6: a 14 Gbps su un'interfaccia a 352 bit avrete ben 616 GB/s. Di contro la GDDR5X a 11 Gbps sulla GeForce GTX 1080 Ti produce un bandwidth di 484 GB/s.
GeForce RTX 2080 Ti FE | GeForce GTX 1080 Ti FE | |
---|---|---|
Architettura (GPU) | Turing (TU102) | Pascal (GP102) |
CUDA core | 4352 | 3584 |
Potenza FP32 di picco | 14.2 TFLOPS | 11.3 TFLOPS |
Tensor Core | 544 | - |
RT Core | 68 | - |
Unità texture | 272 | 224 |
Freq. base GPU | 1350 MHz | 1480 MHz |
Freq. GPU Boost | 1635 MHz | 1582 MHz |
Memoria | 11GB GDDR6 | 11GB GDDR5X |
Bus | 352-bit | 352-bit |
Bandwidth memoria | 616 GB/s | 484 GB/s |
ROPs | 88 | 88 |
Cache L2 | 5.5MB | 2.75MB |
TDP | 260W | 250W |
Numero transistor | 18,6 miliardi | 12 miliardi |
Dimensione die | 754 mm² | 471 mm² |
Supporto SLI | Sì (x8 NVLink, x2) | Sì (MIO) |
Per quanto riguarda la scheda in versione Founders Edition, abbiamo una frequenza base della GPU di 1350 MHz che sale fino a 1635 MHz in GPU Boost, fintanto che è assicurato un buon raffreddamento. E dato che Nvidia indica le prestazioni di picco avvalendosi della frequenza GPU Boost, la RTX 2080 Ti può garantire una potenza di 14,2 TFLOPs con calcoli a singola precisione.
La specifica di riferimento generale invece indica una frequenza GPU Boost di 1545 MHz e un TDP leggermente inferiore. Infatti, mentre l'overclock di fabbrica delle Founders Edition impone un TDP di 260 W, in questo caso si scende a circa 250 W.
Entrambe le configurazioni hanno due interfacce NVLink per la connettività multi-GPU. Di questa tecnologia parleremo in maggior dettaglio successivamente, ma in breve ogni collegamento x8 permette 50 GB/s di bandwidth bidirezionale per supportare risoluzioni più alte e refresh rate più veloci. Sulla GeForce RTX 2080 Ti sono necessari 100 GB/s di throughput totali per usare monitor 8K in modalità Surround.