Anche se abbiamo mantenuto il guadagno di 2,26 volte tra la 4870 e la 5870 per la maggior parte degli shader semplici e DX9 che abbiamo avviato, il vantaggio si è ridotto a 1,68 volte quando abbiamo aggiunto l'illuminazione per pixel.
Ora diamo uno sguardo a shader più complessi e attuali, sotto DirectX 10.0:
Con texture procedurali il vantaggio nella potenza grezza si riflette quasi totalmente nella pratica: la 5870 è 2,24 volte più rapida di una 4870. Non c'è dubbio che i 1600 stream processors sono presenti e si sono fatti valere!
Nella descrizione dell'architettura AMD ha lasciato una linea ambigua che afferma semplicemente "dual rasterizer". Come probabilmente sapete, le attuali GPU sono capaci di rasterizzare un singolo triangolo per ciclo, e questa è la ragione principale per le limitazioni delle prestazioni che sono apparse nei test geometrici sintetici su architetture a shader unificati.
All'inizio, osservando la nuova architettura, abbiamo pensato che AMD avesse trovato un modo per parallelizzare il setup, il che sarebbe stato particolarmente importante per una GPU che pone molta attenzione sulla tessellation, una tecnica che genera un grande numero di triangoli. Ci sono un certo numero di opzioni per rasterizzare diversi triangoli in parallelo, ma sono molto complesse su una GPU di tipo Sort-Last Fragment - ci sono diversi problemi con la sincronizzazione, con implicazioni di vario tipo. Quindi eravamo curiosi di vedere come AMD aveva risolto questo enigma. Sfortunatamente la risposta è stata deludente: AMD aveva giocato a tira e molla con le parole. In pratica c'è ancora solamente un singolo rasterizer, che amministra un singolo triangolo per ciclo. Tuttavia ora ci sono il doppio di unità di scan conversion, che generano pixel alla velocità di 32 pixel per ciclo in modo da pareggiare l'incremento nel numero delle ROPs. Quindi anziché un dual rasterizer, sarebbe semplicemente meglio chiamarlo "rasterizer molto più potente".
C'è anche un nuovo elemento di cui parlare: le unità fisse che amministrano i calcoli di interpolazioni sono scomparse e il lavoro è amministrato dalle unità di calcolo shader. AMD afferma che l'impatto sulle prestazioni è quasi trascurabile ed è vero che questo è in linea con la tendenza attuale di sbarazzarsi del maggior numero di unità fisse possibili, sfruttando l'enorme potenza di elaborazione delle GPU moderne.
Se le unità stream processing non hanno cambiato fondamentalmente il loro funzionamento, le unità texture non sono cambiate affatto rispetto al RV770. In pratica, salvo per il supporto a texture 16KX16K e due nuovi formati di compressione texture - entrambi necessari per la compatibilità DirectX 11 - non c'è nulla di nuovo. Steep Parallax Mapping mostra abbastanza chiaramente che:
I driver sembrano aver aggiunto una leggera ottimizzazione, perché il vantaggio misurato qui (ma anche con altri shader, come Fur) è di 2,35 volte tra le due Radeon.
Le prestazioni con i geometry shaders (geometry power), d'altra parte, sono cresciute solo del 42%.
Questo ultimo test misura le prestazioni di texture fetching (importante per il displacement mapping, ad esempio). Il miglioramento in questo caso è di un modesto 34%.
Il bandwidth totale della cache L1 è cresciuto, ma solo di un fattore pari a due, che è appena adeguato all'incremento nel numero di unità texture. Allo stesso modo, la dimensione della cache L2 è stata raddoppiata, ma ancora una volta corrisponde a un aumento dovuto all'adattamento al maggior numero di unità. Peggio, il bandwidth L2/L1 è stato aumentato solo in proporzione alla frequenza, laddove ora ci sono il doppio di unità da servire! Forse abbiamo appena messo il dito su uno dei motivi sul perché RV870 ha fallito nel dimostrare prestazioni doppie rispetto al predecessore nei due precedenti test intensivi sulle texture.
Non c'è molto di nuovo dove vengono interessate le ROPs. AMD ha semplicemente ottimizzato i collegamenti tra le ROPs e le unità texture, permettendo a quest'ultime di leggere formati compressi usati con anti-aliasing attivo. Questa funzionalità, che le GPU Nvidia hanno già, dovrebbero portare a migliori prestazioni durante le operazioni frame buffer in post-processing.
A parte ciò, le caratteristiche sono esattamente le stesse di RV770; l'output massimo con AA 2x e 4x (32 pixel/ciclo), ma ridotto della metà (16 pixel/ciclo) quando è usato l'AA 8x. C'è stata anche un'ottimizzazione dei passaggi di renderizzazione Z-only, che sono eseguiti quattro volte più rapidamente (128 pixel/ciclo).