Nvidia è riuscita a creare suoni inesistenti grazie all'IA
Nvidia ha presentato Fugatto, un nuovo modello di intelligenza artificiale in grado di trasformare e combinare suoni, musica e voci in modi inediti.
Advertisement
a cura di Andrea Riviera
Managing Editor
Nvidia ha presentato Fugatto, un nuovo modello di intelligenza artificiale in grado di trasformare e combinare suoni, musica e voci in modi inediti. Il sistema, sviluppato dai ricercatori dell'azienda, promette di rivoluzionare la creazione e manipolazione audio grazie a capacità di sintesi e combinazione mai viste prima.
Fugatto rappresenta un importante passo avanti rispetto ai modelli generativi audio esistenti, in quanto permette non solo di sintetizzare suoni da input testuali, ma anche di fondere e manipolare tracce audio esistenti in base a descrizioni e istruzioni. Le potenzialità spaziano dalla creazione di effetti sonori surreali alla modifica di caratteristiche vocali, aprendo nuove frontiere per la produzione musicale e sonora.
Per addestrare Fugatto, i ricercatori Nvidia hanno dovuto creare un dataset in grado di stabilire relazioni significative tra audio e linguaggio. A differenza dei modelli linguistici standard, infatti, generalizzare descrizioni e caratteristiche da dati audio richiede un approccio più esplicito.
Il team ha utilizzato un modello linguistico per generare script Python capaci di creare un gran numero di istruzioni basate su template e in forma libera, descrivendo diverse "personas" audio. Hanno poi generato una serie di istruzioni sia assolute (ad esempio "sintetizza una voce felice") che relative ("aumenta la felicità di questa voce") da applicare a tali personas.
I dataset audio open source utilizzati come base per Fugatto sono stati arricchiti con "didascalie sintetiche" generate automaticamente, in grado di quantificare caratteristiche come genere, emozione e qualità del parlato. Strumenti di elaborazione audio sono stati impiegati per descrivere e quantificare i clip di addestramento anche a livello acustico.
Oltre all'addestramento innovativo, Fugatto si distingue per il sistema "ComposableART" (Audio Representation Transformation). Questo permette di controllare indipendentemente e generare combinazioni inedite di istruzioni e compiti, producendo output audio altamente personalizzabili al di fuori della distribuzione di addestramento.
In pratica, ComposableART consente di fondere diverse caratteristiche dal set di addestramento per creare suoni completamente nuovi. Gli esempi mostrati spaziano da "un violino che suona come un bambino che ride" a "un banjo che suona davanti a una pioggia leggera", fino a "macchinari industriali che urlano in agonia metallica".
Una delle caratteristiche più interessanti di Fugatto è la capacità di trattare ogni singola caratteristica audio come un continuum regolabile, anziché come un'opzione binaria. Questo permette di ottenere risultati molto diversi variando il peso relativo dei diversi elementi in una combinazione.
Nonostante Fugatto sia ancora in fase di sviluppo e non disponibile al pubblico, Nvidia ha già evidenziato numerose potenziali applicazioni:
- Prototipazione di brani musicali
- Creazione di colonne sonore dinamiche per videogiochi
- Localizzazione audio per pubblicità internazionali
- Effetti sonori innovativi per produzioni audiovisive
Nvidia sottolinea che modelli come Fugatto non vanno visti come sostituti della creatività umana, ma come nuovi strumenti a disposizione degli artisti audio. Come afferma Ido Zmishlany, produttore e cantautore: "La storia della musica è anche una storia della tecnologia. Con l'IA stiamo scrivendo il prossimo capitolo della musica. Abbiamo un nuovo strumento per fare musica, e questo è super eccitante."
Sebbene i risultati attuali di Fugatto siano a volte altalenanti, la vasta gamma di capacità dimostrate supporta la descrizione di Nvidia del sistema come un "coltellino svizzero per il suono". Con il progredire della ricerca e l'aumento della potenza di calcolo disponibile, è probabile che sistemi come Fugatto diventeranno sempre più sofisticati e versatili, aprendo nuove possibilità creative nel campo dell'audio e della musica.