Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di NVIDIA rende gli esseri umani digitali più realistici
Business
Immagine di Dati, SEO e AI Search: best practice per traffico qualificato e conversioni Dati, SEO e AI Search: best practice per traffico qualificat...
Immagine di OpenClaw espone i dati degli utenti tra vulnerabilità critiche e malware OpenClaw espone i dati degli utenti tra vulnerabilità criti...

NVIDIA rende gli esseri umani digitali più realistici

Nemotron-4 4B, il primo modello linguistico di piccole dimensioni dell'azienda, apre nuove frontiere nel customer service e nella sanità.

Avatar di Stefano Silvestri

a cura di Stefano Silvestri

@Tom's Hardware Italia

Pubblicato il 23/08/2024 alle 10:00
Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

NVIDIA ACE (acronimo di Avatar Cloud Engine) è una suite avanzata di tecnologie basate sull'intelligenza artificiale generativa, concepita per creare esseri umani digitali altamente realistici.

Questa piattaforma permette alle aziende di integrare avatar capaci di interagire dinamicamente con gli utenti, utilizzando tecnologie come il riconoscimento vocale, la sintesi vocale e l'animazione facciale sincronizzata.

Ti potrebbe interessare anche

youtube play
Guarda su youtube logo

Il suo cuore risiede in modelli linguistici avanzati, come il Nemotron-4 4B, che il colosso capitanato da Jen-Hsun Huang ha presentato in queste ora alla fiera Gamescom di Colonia.

Si tratta del primo modello di linguaggio piccolo (SLM, o Small Language Model) on-device dell'azienda, che può dunque essere eseguito sia nel cloud, sia localmente su dispositivi dotati di GPU NVIDIA RTX.

I vantaggi di Nemotron-4 4B

Questo modello linguistico è progettato per comprendere le istruzioni degli utenti, rispondere in modo accurato e adattarsi dinamicamente alle interazioni in tempo reale.

Sebbene presentato in un contesto gaming quale, appunto, la Gamescom di Colonia, il Nemotron-4 4B ha potenzialità significative anche in ambiti professionali e industriali.

Grazie alla sua latenza minima, che gli permette risposte immediate, può infatti trovare applicazione in ambiti come il servizio clienti, la sanità e la vendita al dettaglio.

Il modello è disponibile come microservizio NVIDIA NIM (NVIDIA AI Inference Manager), un toolkit di sviluppo software progettato per semplificare l'integrazione e l'implementazione di modelli di intelligenza artificiale nelle applicazioni.

Immagine id 31729
NVIDIA NIM è pensato per semplificare l'integrazione e l'implementazione di modelli di IA.

NIM consente agli sviluppatori di eseguire l'inferenza dei modelli AI, ossia l'utilizzo di modelli pre-addestrati per generare risposte o previsioni, sia localmente su dispositivi con GPU NVIDIA RTX, sia nel cloud.

Ciò permette tempi di risposta più rapidi e offre agli sviluppatori la possibilità di sfruttare oltre 100 milioni di PC e laptop equipaggiati con GeForce RTX e workstation basate su NVIDIA RTX.

Perché usare un SLM?

L'efficacia e le prestazioni di un modello di intelligenza artificiale dipendono in gran parte dalle dimensioni e dalla qualità del set di dati utilizzato per l'addestramento.

I modelli linguistici di grandi dimensioni vengono addestrati su vasti volumi di dati, risultando spesso generici e contenenti informazioni superflue per la maggior parte degli utilizzi.

Al contrario, gli Small Language Model si concentrano su casi d'uso specifici. Questo focus consente loro di fornire risposte più precise e rapide anche con un minor volume di dati, un aspetto cruciale per garantire interazioni naturali con esseri umani digitali.

Nemotron-4 4B è stato sviluppato attraverso un processo di distillazione dal più grande modello Nemotron-4 15B. In questo processo, il modello più piccolo, noto come "studente," ha imparato a imitare i risultati del modello più grande, l'"insegnante".

Immagine id 31730
Nemotron-4 4B è stato sviluppato attraverso un processo di distillazione dal più grande modello Nemotron-4 15B.

Durante la distillazione, gli output non essenziali del modello studente sono stati eliminati per ridurre la complessità e il numero di parametri. Successivamente, il modello SLM è stato quantizzato, riducendo la precisione dei suoi pesi.

Con un numero inferiore di parametri e una precisione ottimizzata, Nemotron-4 4B occupa meno memoria e garantisce un tempo di risposta più veloce per il primo token, ossia la velocità con cui inizia una risposta, mantenendo comunque un alto livello di accuratezza.

Questo ridotto ingombro di memoria permette alle applicazioni che integrano il microservizio NIM di essere eseguiti localmente su un ampio numero di PC e laptop GeForce RTX AI e workstation NVIDIA RTX AI già in uso dai consumatori.

James: oltre il gaming

La tecnologia NVIDIA ACE, dicevamo, non si limiterà a rendere più realistiche le conversazioni tra i gamer e i personaggi non giocanti. Troverà applicazione anche in diversi settori professionali. 

Alla recente conferenza SIGGRAPH, NVIDIA ha presentato in anteprima James, un essere umano digitale interattivo capace di connettersi con le persone attraverso emozioni, umorismo e altro ancora. James è costruito sfruttando la tecnologia ACE e potete provarlo a questo link.

Il sistema di interpretazione del parlato automatizzato NVIDIA Riva analizza il linguaggio orale di un utilizzatore e sfrutta l'intelligenza artificiale per produrre una trascrizione estremamente fedele in tempo reale.

Guarda su

Ciò permette di creare flussi di lavoro di AI conversazionale completamente adattabili, utilizzando servizi modulari di traduzione e voce in più lingue, potenziati da GPU.

Tra gli altri ASR supportati c'è Whisper di OpenAI, una rete neurale open source che raggiunge livelli di robustezza e precisione paragonabili a quelli umani nel riconoscimento vocale inglese.

Una volta convertita in formato testuale, la trascrizione viene elaborata da un LLM, come Gemma di Google, Llama 3 di Meta o appunto Nemotron-4 4B, per iniziare a produrre una replica all'input vocale iniziale dell'utilizzatore.

Successivamente, un altro componente della tecnologia Riva, il sistema di sintesi vocale, crea una risposta audio. Anche la tecnologia vocale e di sintesi vocale AI di ElevenLabs è compatibile ed è stata presentata come parte di ACE, come si può osservare nella dimostrazione precedente.

Infine, NVIDIA Audio2Face (A2F) crea espressioni facciali che possono essere sincronizzate con i dialoghi in numerose lingue. Grazie a questo servizio modulare, gli avatar digitali possono mostrare emozioni dinamiche e realistiche trasmesse in diretta o integrate durante la post-produzione.

In questo modo i movimenti del volto, degli occhi, della bocca, della lingua e della testa in modo che si allineino autonomamente con la gamma emotiva e il livello di intensità scelti. Inoltre, A2F è in grado di dedurre automaticamente le emozioni direttamente da una clip audio.

Quanto appena descritto torna utile in contesti come il customer service, dove gli avatar digitali possono interagire in tempo reale con i clienti, esprimendo emozioni realistiche e rispondendo con un livello di profondità senza precedenti.

Forse non ancora oggi, ma un domani gli esseri umani digitali renderanno le interazioni più coinvolgenti e naturali. Secondo Gartner, entro il 2025 l'80% delle soluzioni conversazionali integrerà l'intelligenza artificiale generativa, e il 75% delle applicazioni rivolte ai clienti includerà un'intelligenza artificiale conversazionale dotata di capacità emotive.

A beneficiarne saranno settori come il servizio clienti, la sanità, la vendita al dettaglio, la telepresenza e la robotica. Oltrepassando i confini del gaming e offrendo interazioni più efficaci e personalizzate con gli utenti finali.

Le notizie più lette

#1
Google Foto potrebbe cancellare i vostri file senza avvisare
6

Smartphone

Google Foto potrebbe cancellare i vostri file senza avvisare

#2
Il Galaxy S26 bianco si mostra in anteprima

Smartphone

Il Galaxy S26 bianco si mostra in anteprima

#3
Il punto debole di Gemini è solo uno, la messaggistica

Smartphone

Il punto debole di Gemini è solo uno, la messaggistica

#4
Galaxy S26: ricarica wireless più veloce ma con limiti
2

Smartphone

Galaxy S26: ricarica wireless più veloce ma con limiti

#5
Telegram fa infuriare l'utenza Android introducendo il Liquid Glass
6

Smartphone

Telegram fa infuriare l'utenza Android introducendo il Liquid Glass

👋 Partecipa alla discussione!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Ti potrebbe interessare anche

OpenClaw espone i dati degli utenti tra vulnerabilità critiche e malware

Business

OpenClaw espone i dati degli utenti tra vulnerabilità critiche e malware

Di Valerio Porcu
Dati, SEO e AI Search: best practice per traffico qualificato e conversioni

Business

Dati, SEO e AI Search: best practice per traffico qualificato e conversioni

Di Matteo Zambon
Stranger AI Things: tra social per soli agenti e la sfida della pubblicità
1

Business

Stranger AI Things: tra social per soli agenti e la sfida della pubblicità

Di Pasquale Viscanti e Giacinto Fiore
QNAP presenta myQNAPcloud One per lo storage unificato

Business

QNAP presenta myQNAPcloud One per lo storage unificato

Di Valerio Porcu
Anthropic e OpenAI, ecco i nuovi strumenti per programmare
1

Business

Anthropic e OpenAI, ecco i nuovi strumenti per programmare

Di Valerio Porcu
Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.