GK110: un carrarmato

Tornate con la mente alla serie di schede Nvidia GeForce GTX 500. Il GF110 a bordo della GTX 580 rappresentava la massima espressione della tecnologia Nvidia in quel momento, mentre con la GPU GK104 della GTX 680, malgrado il prezzo simile, abbiamo avuto a che fare con un core castrato sul fronte del calcolo generico, con prestazioni inferiori alla GTX 580 nei test basati su OpenCL. Una scelta dell'azienda, che preferiva dare priorità ai videogiochi. Con GK110 ci troviamo davanti a una soluzione senza compromessi.

Clicca per ingrandire

All'interno dell'SMX

Una GPU GK110 completa consiste di 15 Streaming Multiprocessors che, lo ricordiamo, sono chiamati in breve SMX. Questi blocchi sono per larga parte gli stessi che ritroviamo in GK104. Includono ancora 192 CUDA core, 16 unità texture e una struttura della cache molto simile. In GK110 ce ne sono ovviamente molti di più. GK104 include otto blocchi SMX, mentre GK110 ne ha 15.

Dato che il chip è così grande e complesso, c'è un impatto sulle rese produttive. La GPU realizzata in modo perfetto esiste, però persino la soluzione di fascia più alta basata su GPU GK110 ha un SMX disabilitato. Moltiplicate 192 per 14 volte e ottenete una GPU con 2688 CUDA core. Inoltre 16 unità texture per ogni 14 SMX costituiscono un totale di 224 TMU, rispetto alle 128 della GTX 680.

Per SMX:	GF100 (Fermi)	GF104 (Fermi)	GK110 (Kepler)	GK104 (Kepler)
Capacità CUDA Compute	2.0	2.0	3.5	3.0
Thread/Warp	32	32	32	32
Max. Warp/SMX	48	48	64	64
Max. Thread/SMX	1536	1536	2048	2048
Max. blocchi thread/SMX	8	8	16	16
Registri 32-bit/SMX	32.768	32.768	65.536	65.536
Max. Registri/Thread	63	63	255	63
Max. thread/blocchi thread	1024	1024	1024	1024

Oltre a offrire le risorse necessarie per il gaming, il GK110 risolve il problema più grande delle soluzioni GK104: la capacità di calcolo generico. All'interno di GK104 ogni SMX ha 192 FP32 core, per oltre 3 TFLOPS di prestazioni di picco in virgola mobile. Avete solo otto unità FP64, e questo vi dà 1/24 delle prestazioni con calcoli a doppia precisione rispetto a quelle FP32. Un SMX di GK110 integra 64 CUDA core FP64, il che porta il rapporto a 1/3.

Nvidia afferma che GeForce GTX Titan offre fino a 4,5 TFLOPs in singola precisione e 1,5 TFLOPs in doppia precisione. In teoria questo la pone in vantaggio rispetto alla Radeon HD 7970 GHz Edition, che offre 4,3 TFLOPS con calcoli a singola precisione e 1,01 TFLOPS in doppia precisione.

SMX GK110, con 64 CUDA core FP64 - clicca per ingrandire

SMX GK104: non nell'immagine, otto core FP64 - clicca per ingrandire

Siamo naturalmente felici di vedere maggiore enfasi sui calcoli generici da parte di GK110, però non c'è dubbio che GTX Titan ponga maggiore priorità sulla grafica. Per bilanciare quell'incremento del 75% nel numero di shader e unità texture, Nvidia ha dovuto rivedere anche il back-end della GPU. All'interno di GK104 troviamo quattro partizioni ROP capaci di eseguire otto pixel integer a 32 bit per clock, portando a ciò che l'azienda definisce 32 unità ROP. In GK110 troviamo sei blocchi, per 48 unità ROP.

GeForce GTX 680 e Titan usano entrambe memoria GDDR5 a 1502 MHz. Poiché GK110 usa sei interfacce di memoria a 64 bit, piuttosto che le quattro di GK104, il bandwidth di picco sale del 50%, da 192 GB/s a 288 GB/s. Un valore alla pari con la Radeon HD 7970 GHz Edition standard, che ha memoria GDDR5 a 1500 MHz su bus a 384 bit.