Iris Pro Graphics 6200
Da una generazione alla quella successiva Intel cambia il modo in cui distribuisce le proprie GPU integrate nei processori. Con le proposte Sandy e Ivy Bridge, i processori desktop di fascia alta aveva la soluzione migliore: HD Graphics 3000 (12 execution unit) e HD Graphics 4000 (16 EU). Haswell adotta l'HD Graphics 4600 (GT2 con 20 EU), lasciando le soluzioni HD Graphics 5000, Iris Pro Graphics 5100 e Iris Pro Graphics 5200 (GT3, GT3 e GT3e, rispettivamente, tutte con 40 EU) alle CPU saldate sulle motherboard.
Nell'immagine sopra abbiamo numerato i sei domini che compongono la grafica GT2 di Haswell, altrimenti nota come HD Graphics 4600. Il dominio tre demarca il cosiddetto "sub-slice" - un blocco con EU, texture sampler, cache L1 instruction e un Media Sampler. Il dominio due è chiamato "slice common", e offre rasterizer, pixel back-end e cache L3. Insieme questi blocchi compongono uno "slice".
Uno slice nella configurazione GT2 di Haswell includeva uno "slice common" e due "sub slice", per un totale di 20 EU. Con Broadwell Intel ha manipolato l'organizzazione delle risorse per ottimizzare per prestazioni e consumi - ogni sub slice è fatto di otto EU, anziché 10.
Come risultato del passaggio ai 14 nanometri, Intel ha potuto mettere un terzo sub slice su GT2, ottenendo 24 EU e più sampling throughput/cache per EU (e riducendo comunque i consumi rispetto ad Haswell, secondo il graphics architect di Intel Jason Ross).
Gli EU hanno ricevuto miglioramenti che riguardano l'architettura e l'implementazione, a vantaggio di prestazioni e consumi. Ad esempio, le due unità SIMD in virgola mobile in ogni EU ora supportano operazioni integer a 32 bit native. In precedenza, solo una. Il risultato è un raddoppio del throughput con calcoli interi per ogni EU. Le execution unit inoltre supportano nativamente calcoli in virgola mobile a 16 bit.
La GPU GT3 di Broadwell aggiunge un secondo slice completo, raddoppiando le già più veloci risorse di GT2, incluse le capacità multimediali a funzione fissa. Abbiamo un massimo di 48 EU - un miglioramento di 2,4 volte rispetto alla HD Graphics 4600 del Core i7-4790K. E dato che ci sono tre sub-slice per slice anziché due, le prestazioni nel campionamento delle texture aumentano di 1,5 volte, mentre il rapporto FLOP to texture scende da 40:1 a 32:1.
I miglioramenti sono palpabili. Per un incremento del 140% negli EU, abbiamo misurato un passo avanti prestazionale tra il 109 e il 141 percento a seconda dell'operazione.
GT3e integra inoltre 128 MB di eDRAM sul package del processore, dietro la sua cache L3 condivisa su un ring bus stop dedicato. Non solo questo porta benefici per le prestazioni, ma secondo Intel ci sono vantaggi anche per i consumi. A godere è l'efficienza, in quanto si evitano transazioni che precedentemente avrebbero interessato la RAM di sistema.
La eDRAM opera all'interno del proprio dominio di frequenza e secondo il firmware della nostra motherboard ha una frequenza di 1.8 GHz. A quella frequenza e dati i bus di lettura/scrittura capaci di 32 byte/ciclo, avete a che fare con un throughput bidirezionale di oltre 57 GB/s.
Per quanto sappiamo della precedente Iris Pro Graphics 5200, la eDRAM non è sposata solo con la GPU, ma è a disposizione anche dei core IA.
Processore | GPU | EU | Frequenza max. | GFLOPS di picco |
---|---|---|---|---|
Core i7-5775C | Iris Pro Graphics 6200 Gen 8 | 48 | 1150MHz | 883 GFLOPS |
Core i5-5675C | Iris Pro Graphics 6200 Gen 8 | 48 | 1100MHz | 844 GFLOPS |
Core i7-4790K | HD Graphics 4600 Gen 7.5 | 20 | 1250MHz | 400 GFLOPS |
Core i5-4690K | HD Graphics 4600 Gen 7.5 | 20 | 1200MHz | 384 GFLOPS |
Le capacità multimediali di Broadwell
Oltre quattro anni fa, Intel presentava Quick Sync facendo leva sul proprio vantaggio produttivo per realizzare un engine a funzione fissa per l'accelerazione di codifica e decodifica multimediale. L'azienda ha lavorato con gli sviluppatori di software per supportare Quick Sync e il numero di programmi compatibili è ampio. Nel tempo Quick Sync si è evoluto per accelerare gli ultimi formati, dando agli sviluppatori maggiore bilanciamento tra qualità e prestazioni.
Con Broadwell, Intel continua a spingere più lavoro verso blocchi a funzione fissa ottimizzati per specifiche operazioni. Si tratta di soluzioni più veloci rispetto alla logica programmabile parallelizzata - come gli EU - che a loro volta sono più rapidi dei core x86 general purpose. Dato che richiedono un minor numero di transistor necessitano anche di meno energia. Si tratta di una vittoria su due fronti.
Qual è quindi il vantaggio di Brodwell rispetto ad Haswell in ambito desktop? L'engine Multi-Format Codec supporta nativamente contenuti a 4096x2048, accelerando la decodifica HEVC fino a 4Kp30 e VP9 fino a 4Kp24. Tutto questo però non è gestito da un blocco a funzione fissa. Intel piuttosto ha scelto un approccio che coinvolge i core IA e quelli grafici. Non è ideale, l'azienda sta lavorando a una soluzione completamente accelerata in hardware, ma è meglio di niente.
La codifica AVC/H.264 riceve più di un sostanziale aumento di velocità grazie al sub-slice aggiuntivo (e il secondo slice sulla GT3), poiché c'è un Media Sampler a funzione fissa - responsabile per il processo di motion estimation - all'interno di ognuno. E poiché gli EU sono usati per funzioni di rate control e mode decision, diversi passaggi della codifica a due stadi di Intel funzionano più rapidamente.
L'architettura grafica Ivy Bridge includeva un sesto dominio chiamato video quality engine, che usava hardware dedicato per la gestione di video e immagini con consumi molto bassi. Prima questi lavori erano gestiti dagli EU. Con Broadwell, il VQE è fino a 2 volte più veloce.
Nel loro insieme, questi miglioramenti dovrebbero avere un profondo impatto sulle prestazioni multimediali, in particolare se guardiamo alla GT2 di Haswell contro la GT3e di Broadwell. Da un Multi-Format Codec si passa a due, e lo stesso vale per il Video Quality Engine. Ogni VQE ha un throughput massimo raddoppiato. Da due Media Sampler si passa a sei, ciascuno con il doppio del throughput.
SiSoftware Sandra 2015 sembra sfruttare Quick Sync per la codifica dei dati e questi sono i risultati che abbiamo ottenuto. L'operazione H.264->H.264 ottiene un miglioramento fino al 39% rispetto al Core i7-4790K e il carico WMV->H.264 gode di un throughput il 44% maggiore sul Core i7-5775C.
Intel ci ha parlato anche del supporto end-to-end 4K, che potrebbe essere più rilevante nei Core i5-5675C e Core i7-5775C rispetto alla maggior parte delle CPU Broadwell, in quanto questi processori finiranno in PC multimediali e di piccolo formato. Le CPU accelerano la codifica AVC/H.264 e la decodifica 4Kp60, insieme alla decodifica HEVC a 4Kp30 tramite gli EU e i core IA. Il display controller di Intel può gestire contenuti fino a 3840x2160 a 60 Hz usando DisplayPort 1.2 o 4096x2160 a 24Hz con HDMI 1.4. Sfortunatamente non c'è il supporto HDMI 2.0.