Intel, nel corso del suo primo AI DevCon, ha annunciato Nervana NNP-L1000, il primo neural network processor (NNP) nato dall'acquisizione di Nervana. Il chip si occuperà di dare priorità al bandwidth di memoria e all'uso delle risorse di calcolo rispetto alle prestazioni di picco teoriche.
Si tratta di una svolta per la casa di Santa Clara rispetto a quanto fatto in passato nel mondo dell'intelligenza artificiale. Intel ha iniziato a competere con Nvidia nel settore del machine learning (ML) affidandosi all'architettura Xeon Phi, che usa decine di core Atom in parallelo per accelerare le operazioni ML.
Intel però deve aver realizzato che non era la strada migliore per recuperare terreno sulla rivale, che sembra capace di fare importantissimi passi avanti nelle prestazioni ogni anno con le sue GPU.
Di conseguenza l'azienda ha iniziato a prendere in considerazione altre possibilità che l'hanno portata ad acquisire Altera per i suoi field programmable gate array (FPGA), Movidius per il suo processore di computer vision, MobilEye per la tecnologia delle auto a guida autonoma e per finire Nervana con il suo processore di rete neurale specializzato.
Intel ha inoltre iniziato a lavorare su proprie GPU dedicate, oltre che su chip neuromorfici e processori quantistici. Intel afferma che tutte queste opzioni rappresentano un "approccio olistico" all'intelligenza artificiale. La sensazione è l'azienda che non voglia puntare su una singola architettura come con Xeon Phi, con il rischio di rimanere indietro nel mercato dei chip per il machine learning. Allo stesso tempo questa strategia potrebbe confondere gli sviluppatori, perché non sanno su quale tecnologia Intel punterà con maggiore decisione sul lungo termine (forse non lo sa nemmeno Intel!).
Per ora Intel sembra focalizzata maggiormente sui chip Nervana, forse perché sono le soluzioni in grado di competere meglio con le proposte di Nvidia - in attesa delle GPU dedicate. Nervana NNP-L1000, nome in codice Spring Crest, non sembra concentrarsi molto sulle prestazioni di picco (TOPS, trillion operations per second) bensì su un alto bandwidth di memoria e una bassa latenza.
Intel ha indicato i seguenti numeri prestazionali per il suo prototipo Lake Crest, che è stato dimostrato recentemente ad alcuni partner:
Le operazioni General Matrix to Matrix Multiplication (GEMM) usando matrici di dimensioni A(1536, 2048) e B(2048, 1536) hanno raggiunto più del 96,4% d'uso delle risorse di calcolo su un singolo chip. Questo rappresenta circa 38 TOP/s di prestazioni reali - non teoriche - su un chip.
Le operazioni GEMM distribuite più chip che supportano un modello di allenamento parallelo realizzano uno scaling quasi lineare e un'efficienza dello scaling del 96,2% per matrici di dimensione A(6144, 2048) e B(2048, 1536) - permettendo a più NNP di essere connessi insieme e liberandoci dai limiti di memoria di altre architetture.
Misuriamo l'89,4% di efficienza unidirezionale chip-to-chip per quanto riguarda il bandwidth teorico a meno di 790ns (nanosecondi) di latenza e siamo entusiasti di applicarlo a interconnessioni ad alto bandwidth e bassa latenza da 2,4 Tb/s (terabit al secondo).
Tutto questo avviene all'interno di un TDP per singolo chip sotto 210 watt. E questo è solo un prototipo del nostro Intel Nervana NNP-L1000 (Lake Crest) dal quale stiamo ottenendo feedback dai nostri primi partner.
Nervana NNP-L1000, che sarà il primo prodotto Nervana ad arrivare sul mercato, promette dalle 3 alle 4 volte le prestazioni nell'allenamento delle reti neurali di Lake Crest, secondo Intel.
L'azienda ha aggiunto che NNP-L1000 supporterà bfloat16, un formato numerico che è stato adottato da tutti gli attori dell'industria ML per le reti neurali. L'azienda farà altrettanto con i propri FPGA, Xeon e altri prodotti ML. Nervana NNP-L1000 arriverà sul mercato nel corso del 2019.