Si chiama Tesla T4, ed è il settimo prodotto di Nvidia basato sulla nuova architettura Turing. Dopo aver annunciato tre schede Quadro RTX per il mercato della grafica professionale e altrettante soluzioni GeForce RTX per il gaming, ecco una nuova proposta pensata per il mondo del deep learning. È stata presentata poco fa nel corso della GPU Technology Conference che si sta tenendo in Giappone.
La nuova soluzione, progettata da Nvidia per gestire i carichi di lavoro di inferenza all'interno di datacenter hyperscale, va a sostituire la precedente Tesla P4 basata su architettura Pascal offrendo prestazioni decisamente superiori.
La nuova scheda è oltre 5 volte più veloce della P4 nel riconoscimento vocale e quasi tre volte più veloce con i video. Secondo Nvidia la T4 è inoltre quasi 40 volte più rapida di una CPU nel processare richieste.
Specifiche alla mano, la Tesla T4 è dotata di una GPU con 2560 CUDA core e 320 Tensor core. Nel die dovrebbero trovare spazio anche diverse unità RT core, ma probabilmente non saranno usate o, se lo saranno, avranno un compito diverso da quello per cui saranno usate sulle schede GeForce e Quadro.
Accanto al core grafico troviamo 16 GB di memoria GDDR6 per un bandwidth massimo di 320 GB/s. La GPU supporta calcoli a precisione mista come FP32, FP16 e INT8, ma anche INT4 e in via sperimentale INT1, un notevole avanzamento rispetto alla Tesla P4.
La scheda offre prestazioni pari a 8,1 TFLOPs con calcoli FP32 (la P4 si ferma a 5,5 TFLOPs), 65 TFLOPs in FP16, 130 TOPs con calcoli INT8 (22 TOPS per la Tesla P4) e 260 TOPs con quelli INT4.
Trattandosi di una scheda low-profile con dissipatore passivo, che consuma 75 watt e non richiede alcuna fonte di alimentazione esterna, rappresenta un ulteriore passo avanti sul fronte dell'efficienza per chi opera con reti neurali che devono processare video, parlato, immagini e molto altro.
La Tesla T4 può contare inoltre su engine dedicati alla transcodifica video completamente rinnovati, capaci di offrire il doppio delle prestazioni della Tesla P4. Secondo Nvidia la scheda è in grado di decodificare fino a 38 flussi video Full HD contemporaneamente.
La scheda supporta tutti i principali framework del settore del deep learning come PyTorch, TensorFlow, MXNet e Caffee2. Nvidia offre anche il proprio TensorRT 5, una nuova versione che supporta i Tensor core di Turing e carichi con più livelli di precisione.