NVIDIA ACE (acronimo di Avatar Cloud Engine) è una suite avanzata di tecnologie basate sull'intelligenza artificiale generativa, concepita per creare esseri umani digitali altamente realistici.
Questa piattaforma permette alle aziende di integrare avatar capaci di interagire dinamicamente con gli utenti, utilizzando tecnologie come il riconoscimento vocale, la sintesi vocale e l'animazione facciale sincronizzata.
Il suo cuore risiede in modelli linguistici avanzati, come il Nemotron-4 4B, che il colosso capitanato da Jen-Hsun Huang ha presentato in queste ora alla fiera Gamescom di Colonia.
Si tratta del primo modello di linguaggio piccolo (SLM, o Small Language Model) on-device dell'azienda, che può dunque essere eseguito sia nel cloud, sia localmente su dispositivi dotati di GPU NVIDIA RTX.
I vantaggi di Nemotron-4 4B
Questo modello linguistico è progettato per comprendere le istruzioni degli utenti, rispondere in modo accurato e adattarsi dinamicamente alle interazioni in tempo reale.
Sebbene presentato in un contesto gaming quale, appunto, la Gamescom di Colonia, il Nemotron-4 4B ha potenzialità significative anche in ambiti professionali e industriali.
Grazie alla sua latenza minima, che gli permette risposte immediate, può infatti trovare applicazione in ambiti come il servizio clienti, la sanità e la vendita al dettaglio.
Il modello è disponibile come microservizio NVIDIA NIM (NVIDIA AI Inference Manager), un toolkit di sviluppo software progettato per semplificare l'integrazione e l'implementazione di modelli di intelligenza artificiale nelle applicazioni.
NIM consente agli sviluppatori di eseguire l'inferenza dei modelli AI, ossia l'utilizzo di modelli pre-addestrati per generare risposte o previsioni, sia localmente su dispositivi con GPU NVIDIA RTX, sia nel cloud.
Ciò permette tempi di risposta più rapidi e offre agli sviluppatori la possibilità di sfruttare oltre 100 milioni di PC e laptop equipaggiati con GeForce RTX e workstation basate su NVIDIA RTX.
Perché usare un SLM?
L'efficacia e le prestazioni di un modello di intelligenza artificiale dipendono in gran parte dalle dimensioni e dalla qualità del set di dati utilizzato per l'addestramento.
I modelli linguistici di grandi dimensioni vengono addestrati su vasti volumi di dati, risultando spesso generici e contenenti informazioni superflue per la maggior parte degli utilizzi.
Al contrario, gli Small Language Model si concentrano su casi d'uso specifici. Questo focus consente loro di fornire risposte più precise e rapide anche con un minor volume di dati, un aspetto cruciale per garantire interazioni naturali con esseri umani digitali.
Nemotron-4 4B è stato sviluppato attraverso un processo di distillazione dal più grande modello Nemotron-4 15B. In questo processo, il modello più piccolo, noto come "studente," ha imparato a imitare i risultati del modello più grande, l'"insegnante".
Durante la distillazione, gli output non essenziali del modello studente sono stati eliminati per ridurre la complessità e il numero di parametri. Successivamente, il modello SLM è stato quantizzato, riducendo la precisione dei suoi pesi.
Con un numero inferiore di parametri e una precisione ottimizzata, Nemotron-4 4B occupa meno memoria e garantisce un tempo di risposta più veloce per il primo token, ossia la velocità con cui inizia una risposta, mantenendo comunque un alto livello di accuratezza.
Questo ridotto ingombro di memoria permette alle applicazioni che integrano il microservizio NIM di essere eseguiti localmente su un ampio numero di PC e laptop GeForce RTX AI e workstation NVIDIA RTX AI già in uso dai consumatori.
James: oltre il gaming
La tecnologia NVIDIA ACE, dicevamo, non si limiterà a rendere più realistiche le conversazioni tra i gamer e i personaggi non giocanti. Troverà applicazione anche in diversi settori professionali.
Alla recente conferenza SIGGRAPH, NVIDIA ha presentato in anteprima James, un essere umano digitale interattivo capace di connettersi con le persone attraverso emozioni, umorismo e altro ancora. James è costruito sfruttando la tecnologia ACE e potete provarlo a questo link.
Il sistema di interpretazione del parlato automatizzato NVIDIA Riva analizza il linguaggio orale di un utilizzatore e sfrutta l'intelligenza artificiale per produrre una trascrizione estremamente fedele in tempo reale.
Ciò permette di creare flussi di lavoro di AI conversazionale completamente adattabili, utilizzando servizi modulari di traduzione e voce in più lingue, potenziati da GPU.
Tra gli altri ASR supportati c'è Whisper di OpenAI, una rete neurale open source che raggiunge livelli di robustezza e precisione paragonabili a quelli umani nel riconoscimento vocale inglese.
Una volta convertita in formato testuale, la trascrizione viene elaborata da un LLM, come Gemma di Google, Llama 3 di Meta o appunto Nemotron-4 4B, per iniziare a produrre una replica all'input vocale iniziale dell'utilizzatore.
Successivamente, un altro componente della tecnologia Riva, il sistema di sintesi vocale, crea una risposta audio. Anche la tecnologia vocale e di sintesi vocale AI di ElevenLabs è compatibile ed è stata presentata come parte di ACE, come si può osservare nella dimostrazione precedente.
Infine, NVIDIA Audio2Face (A2F) crea espressioni facciali che possono essere sincronizzate con i dialoghi in numerose lingue. Grazie a questo servizio modulare, gli avatar digitali possono mostrare emozioni dinamiche e realistiche trasmesse in diretta o integrate durante la post-produzione.
In questo modo i movimenti del volto, degli occhi, della bocca, della lingua e della testa in modo che si allineino autonomamente con la gamma emotiva e il livello di intensità scelti. Inoltre, A2F è in grado di dedurre automaticamente le emozioni direttamente da una clip audio.
Quanto appena descritto torna utile in contesti come il customer service, dove gli avatar digitali possono interagire in tempo reale con i clienti, esprimendo emozioni realistiche e rispondendo con un livello di profondità senza precedenti.
Forse non ancora oggi, ma un domani gli esseri umani digitali renderanno le interazioni più coinvolgenti e naturali. Secondo Gartner, entro il 2025 l'80% delle soluzioni conversazionali integrerà l'intelligenza artificiale generativa, e il 75% delle applicazioni rivolte ai clienti includerà un'intelligenza artificiale conversazionale dotata di capacità emotive.
A beneficiarne saranno settori come il servizio clienti, la sanità, la vendita al dettaglio, la telepresenza e la robotica. Oltrepassando i confini del gaming e offrendo interazioni più efficaci e personalizzate con gli utenti finali.