Un anno fa, al CES 2014, Nvidia annunciava il SoC Tegra K1, portando finalmente un'architettura grafica "desktop" nel settore mobile, seppur in versione "dimagrita" grazie a soli 192 CUDA core. La decisione dell'azienda statunitense riaccese l'attenzione sul gaming mobile e in particolare su Android come piattaforma per giocare.
Al debutto Tegra K1 si dimostrò migliore degli altri SoC per tablet di ARM, Imagination Technologies e Qualcomm. Oggi Tegra K1 conserva una posizione di leadership nella maggior parte dei benchmark grafici, ma i concorrenti hanno chiuso il gap prestazionale in molti test specifici.
Nei giorni scorsi Nvidia rilanciato presentando Tegra X1. Nome in codice Erista, l'X1 include una nuova CPU, una nuova GPU e anche una rinnovata parte che riguarda l'imaging (ISP). Realizzata con il processo produttivo a 20 nanometri di TSMC, la CPU del Tegra X1 a 64 bit è basata su quattro core ARM A53 e altrettanti A57.
I core A57, quelli che garantiscono le prestazioni più alte, sono equipaggiati 48 KB di cache "L1 instruction" e 32 KB di cache "L1 data", mentre il cluster di quattro core condivide 2 MB di cache L2. I più efficienti core A53 sono dotati ognuno di 32 KB di cache "L1 instruction" e 32 KB di cache "L1 data", mentre il cluster nel suo complesso condivide una più piccola cache L2 da 512 KB.
Nvidia usa uno schema di cluster migration per la gestione dei thread, dove sono attivi i quattro core A57 oppure lo sono quelli A53, ma mai entrambi allo stesso tempo. Così lo scheduler del sistema operativo può vedere solo quattro core all'interno del cluster attivo. In un determinato cluster, tuttavia, i singoli core della CPU possono entrare in throttling o spegnersi interamente a seconda del carico di lavoro.
In generale, la "cluster migration" è il metodo meno efficiente per la gestione dei thread dato che è meno precisa rispetto sia al "CPU migration scheme" (dove ogni cluster contiene sia core veloci che lenti) o uno schema eterogeneo (dove tutti i core sono attivi e disponibili allo scheduler del sistema operativo).
Nvidia afferma tuttavia di avere raggiunto il doppio dell'efficienza energetica allo stesso livello prestazionale del Samsung Exynos 5433, fondato anch'esso su una configurazione big.LITTLE di core A53/A57 ma dotato di heterogeneous multi-processing. Il modo in cui Nvidia sia riuscita a raggiungere tale traguardo non è chiaro, specialmente dato che entrambe le CPU sono basate sul simile, se non identico, processo a 20 nanometri.
Clicca per ingrandire
È curioso che Nvidia sia tornata i core ARM "standard" piuttosto che affidarsi alla propria CPU Denver a 64 bit. Il motivo di questa scelta è stato dettato semplicemente dalla volontà di arrivare sul mercato in tempi certi. Realizzare core ARM standard a 20 nanometri è più facile che "fare il porting" della nuova architettura Denver al nuovo processo produttivo.
Clicca per ingrandire
Con il Tegra X1 anche le capacità multimediali hanno subito un miglioramento. Il chip si avvale di due Image Signal Processors (ISP) per processare un totale di 1.3 Gpixel/s da un massimo di sei input. Supporta anche sensori d'immagine fino a 100 megapixel, può gestire fino a 4096 punti di focus e ha fino a 600 MPixel/s di throughput per la codifica/decodifica JPEG. Per quanto riguarda la parte video, Tegra X1 codifica video 4K a 30 FPS in formati H.264, H.265 o VP8 in hardware, e può decodificare 4K H.265 (con profondità colore a 10-bit) e video VP9 a 60 FPS, sempre in hardware. Supporta anche l'interfaccia HDMI 2.0 per il collegamento di schermi esterni.
La GPU Maxwell in Tegra X1 è simile al GM204 usato nelle schede video GTX 970/980. Per portare il GM204 all'interno di un TDP mobile Nvidia ha dovuto ridurre il numero di Graphics Processing Clusters (GPC) dai quattro di GM204 a uno.
Inoltre, mentre ogni GPC nel GM204 ha quattro Streaming Multiprocessors (SM), ogni GPC nell'X1 ha solo due blocchi SM. Questo permette a Tegra X1 di avere 256 CUDA core in totale rispetto ai 192 di Tegra K1.
GPU | Tegra K1 | Tegra X1 |
---|---|---|
Architettura | Kepler | Maxwell |
Processo produttivo | 28 nm | 20 nm |
SM | 1 | 2 |
CUDA Core | 192 | 256 |
GFLOPs (FP32, picco) | 365 | 512 |
GFLOPs (FP16, picco) | 365 | 1024 |
Unità texture | 8 | 16 |
Texel Fill-Rate | 7.6 Gtexels/s | 16 Gtexels/s |
Frequenza GPU | ~ 950 MHz | ~ 1000 MHz |
Frequenza memoria | 930 MHz (LPDDR3) | 1600 MHz (LPDDR4) |
Bandwidth memoria | 14.9 GB/s | 25.6 GB/s |
ROPs | 4 | 16 |
Dimensione cache L2 | 128KB | 256KB |
Z-cull | 256 pixels/clock | 256 pixels/clock |
Raster | 4 pixels/clock | 16 pixels/clock |
Texture | 8 bilinear filters/clock | 16 bilinear filters/clock |
ZROP | 64 samples/clock | 128 samples/clock |
Che cosa significa tutto questo per le prestazioni? Per iniziare Tegra X1 è il primo SoC mobile che supera una potenza di calcolo di 1 TeraFLOPs di picco con operazioni FP16 e oltre 500 GFLOPs con calcoli FP32. Se paragonato ad ASCI Red, il primo supercomputer da 1 TeraFLOPs nel benchmark LINPACK e il più veloce sistema fino al 2000, questo è un traguardo incredibile considerato che tale soluzione occupava 148 metri quadrati, integrava 9298 processori Intel Pentium Pro a 200 MHz e richiedeva 850kW di energia. Un singolo benchmark non dice tutto ma abbiamo fatto grandi progressi nell'ultimo decennio nel settore mobile.
Clicca per ingrandire
Nvidia ci ha invitato a una sessione di benchmark dove abbiamo visto alcune schede di sviluppo Tegra X1 con Android Lollipop e diversi benchmark grafici e di sistema in funzione. Perciò i valori prestazionali del nuovo Tegra riportati di seguito non sono stati ottenuti con la nostra suite di test e non abbiamo avuto pieno controllo sulle prove. Il SoC sulla scheda di sviluppo era coperto da un piccolo heatsink, senza ventola, in modo da simulare la capacità di dissipazione termica tipica dello chassis di un tablet.
3DMark Ice Storm Unlimited
Nvidia Tegra X1 (Dev Board) | Nvidia Tegra K1 (Shield Tablet) | Apple A8x (iPad Air 2) | Adreno 420 (Samsung Galaxy Note 4) | Unità benchmark | |
---|---|---|---|---|---|
Punteggio generale | 43860 | 30545 | 21708 | 19684 | score |
Grafica | 58448 | 35588 | 31525 | 20298 | score |
Fisica | 23410 | 20418 | 10388 | 17802 | score |
Test grafico 1 | 285.4 | 212.0 | 147.9 | 102.9 | fps |
Test grafico 2 | 229.0 | 121.8 | 127.8 | 77.5 | fps |
Test fisica | 74.3 | 64.8 | 33.0 | 56.5 | fps |
Come potete vedere il Tegra X1 equipaggiato con GPU Maxwell supera facilmente le ultime soluzioni grafiche di Imagination e Qualcomm in questo benchmark. Raggiunge un punteggio che è quasi il 44 percento superiore rispetto al predecessore Tegra K1.
GFXBench 3.0
Nvidia Tegra X1 (Dev Board) | Nvidia Tegra K1 (Shield Tablet) | Apple A8x (iPad Air 2) | Adreno 420 (Samsung Galaxy Note 4) | Unità benchmark | |
---|---|---|---|---|---|
Manhattan Offscreen | 65.8 | 30.8 | 32.6 | 18.0 | fps |
T-Rex Offscreen | 124.2 | 70.0 | 70.4 | 19.0 | fps |
ALU Offscreen | 455.2 | 273.0 | 184.3 | 151.5 | fps |
Alpha Blending Offscreen | 21888 | 4249 | 17229 | 11882 | MB/s |
Fill Offscreen | 12197 | 5830 | 7606 | 7582 | MTexels/s |
Driver Overhead Offscreen | 63.0 | 52.0 | 105.9 | 27.0 | fps |
L'A8X dell'iPad Air 2 raggiunge le prestazioni di Tegra K1 in diversi sottotest, mentre è surclassato dal nuovo Tegra X1. Osserviamo un miglioramento superiore a due volte rispetto al K1 in Manhattan e 1,8 volte in T-Rex. I test Alpha Blending e Fill rates mostrano anch'essi un notevole miglioramento, in parte grazie al significativo aumento del bandwidth di memoria.
Clicca per ingrandire
Oltre alle migliori prestazioni l'X1 fa grandi progressi anche nell'efficienza energetica. Per dimostrare questa affermazione Nvidia ha monitorato il canale di alimentazione sia della scheda di sviluppo X1 che dell'iPad Air 2. Dato che l'X1 è più potente, ne è stata ridotta la frequenza per offrire le stesse prestazioni grafiche dell'A8X.
Durante la prova il consumo medio di corrente dell'X1 è stato il 44 percento inferiore all'A8X. Si tratta di un risultato che fa ben sperare ma tratteniamo un giudizio finale fino a quando saremo in grado di eseguire ulteriori test sulla batteria in ambiente controllato.
In base a questi primi risultati emerge che Nvidia ha ancora una volta alzato l'asticella delle prestazioni e dell'efficienza energetica. L'X1 è attualmente in produzione e anche se Nvidia non è ancora pronta a parlare dei futuri prodotti basati sul nuovo SoC, ci aspettiamo di vedere i primi dispositivi in commercio nella prima metà dell'anno se non nel primo trimestre.
Abbiamo inoltre chiesto se l'X1 potrà diventare un prodotto per smartphone oltre che per tablet. Nvidia non si è pronunciata ma ha lasciato intendere che è possibile. Con la versione tablet che opera nell'intervallo dei 4-5 watt, è possibile che operando una riduzione della frequenza sacrificando parte delle prestazioni sia possibile abbassare il TDP quanto basta da integrare il Tegra X1 in uno smartphone. In ogni caso sembra che sarà un altro anno entusiasmante per il settore mobile.
Sapphire Hd5450 | ||
Samsung 840 EVO |