A inizio dicembre Google aveva annunciato l'Hypercomputer, un supercomputer pensato per i carichi di lavoro di intelligenza artificiale e descritto come "un'architettura di supercomputer che utilizza un sistema integrato di hardware ottimizzato per le performance, open software, i migliori framework di machine learning e modelli di consumo flessibili".
L'Hypercomputer di Google è un supercomputer modulare basato sulle TPU v5p, l'ultima versione delle TPU Cloud di Google e le più potenti finora con una larghezza di banda che arriva fino a 4.800 Gbps/chip.
HPCwire ha intervistato Mark Lohmeyer, vice presidente e general manager di Compute e ML Infrastructure in Google Cloud, per approfondire il design dell'Hypercomputer e quali benefici potrebbe portare al mondo dell'high-performance computing.
Lohmeyer ha spiegato che l'Hypercomputer è stato creato considerando la crescita esponenziale dei modelli di IA, i quali richiedono un'infrastruttura in grado di gestire questa crescita. L'architettura pensata da Google è ottimizzata per soddisfare sia le esigenze presenti che quelle future, in grado di offrire prestazioni, efficienza e scalabilità per i nuovi carichi di lavoro.
"L'idea di fondo è che dobbiamo fare qualcosa di diverso rispetto al passato" afferma Lohemeyer "Fondamentalmente, dobbiamo progettare questo hypercomputer a livello di sistema - non solo il computer, non solo i chip, non solo un componente qualsiasi, ma come un sistema end-to-end coerente per soddisfare le esigenze attuali e future".
Google considera l'Hypercomputer come un modello per l'operatività futura e prevede di espandere costantemente le capacità del sistema a livello di hardware e software per supportare le crescenti esigenze degli utenti.
Lohmeyer ci tiene a sottolineare che l'Hypercomputer, sebbene presentato come modello per l'esecuzione dei carichi di IA del futuro, è pensato anche per il calcolo scientifico, come le simulazioni.
Modelli di consumo flessibili
La natura modulare dell'Hypercomputer consente agli utenti di combinare elementi in base ai loro bisogni; per esempio, l'infrastruttura supporta l'integrazione con le HPU NVIDIA per consentire ai consumatori di scegliere in modo flessibile come comporre il sistema.
Un elemento fondamentale di questa flessibilità è il Dynamic Workload Scheduler, una piattaforma di gestione delle risorse e schedulazione dei job che migliora l'accesso alle risorse e contiene le spese, ottimizzando l'esecuzione dei job di adestramento e fine-tuning.
Lo scheduler può operare in due diversi modi: con Flex Start gli utenti possono specificare al sistema di quanta potenza hanno bisogno, per quanto tempo e in quale region, e il gestore esegue il carico di lavoro non appena c'è disponibilità di risorse, garantendone il completamento; la seconda modalità, Calendar, consente invece di specificare la finestra temporale in cui il workload deve essere eseguito e la capacità di risorse richiesta, e la piattaforma si occupa di riservare le risorse per la durata richiesta.
Gli utenti possono così trarre il massimo dalle TPU di Google (o dalle GPU NVIDIA), contando su una gestione efficace delle risorse a disposizione.
Secondo Lohmeyer la co-progettazione di hardware e software è stata fondamentale per garantire che il sistema possa scalare in modo coerente nel tempo.
"Google è stato in grado di farlo in modo unico grazie all'intensa ricerca, ai modelli interni e all'ecosistema di modelli di partner, all'esperienza nello scalare questi modelli e alle applicazioni che servono diversi miliardi di consumatori su questa infrastruttura" ha affermato Lohmeyer. "Questa profonda esperienza ci ha permesso di scalare dalle TPU v1 alle v5 e ha portato all'enorme aumento delle capacità che siamo stati in grado di offrire."