Google, l'IA che riconosce le voci col 92% di accuratezza diventa open source

Google ha deciso di rendere pubblicamente disponibile il codice alla base della sua IA in grado di riconoscere col 92% di precisione voci differenti. La tecnologia apre a tantissimi utilizzi, dal campo medico a quello consumer.

a cura di Alessandro Crea

Pubblicato il 13/11/2018 alle 15:09

Riconoscere e distinguere voci differenti all'interno di un flusso audio in cui sono presenti più persone è un'operazione tutt'altro che facile per un'intelligenza artificiale. Google tuttavia ha messo a punto una nuova tecnica di "speaking diarization" molto efficiente, in grado di raggiungere una precisione del 92%. L'aspetto più interessante però è un altro: gli algoritmi di base sono stati resi pubblicamente disponibili su GitHub in forma open source in modo da poter essere utilizzati anche da sviluppatori di terze parti.

Le potenzialità di questa tecnologia sono enormi. Google fa riferimento ad esempio all'ambito medico, con l'IA in grado di seguire una conversazione medico-paziente o tra medici diversi, ma è possibile anche utilizzare questa tecnica per estrapolare l'intervento di uno specifico oratore all'interno di un flusso audio, facilitando ad esempio el operazioni di video editing.

Esempio di analisi di un flusso audio: nella parte bassa a colori diversi corrispondono oratori differenti.

Tuttavia l'utilità di questa soluzione è limitata unicamente dalla fantasia: in ambito consumer, uno smart speaker con assistente digitale in grado di distinguere tra i diversi membri della famiglia potrebbe rifiutarsi di eseguire determinati comandi, ad esempio nel caso in cui a impartirli fossero dei minori. Entrando in un'auto invece basterebbe farsi riconoscere affinché l'assistente applichi automaticamente tutte el regolazioni che il guidatore preferisce, zone di riscaldamento, inclinazione dello sterzo e dei sedili etc.

Senza addentrarci in tecnicismi eccessivi, il nuovo metodo di diarizzazione messo a punto dai laboratori Google, è basato sull'utilizzo di reti neurali di tipo ricorsivo e sull'etichettatura iniziale degli oratori, ovvero sul processo di annotazione di un input audio da parte dell'IA, che assocerà a ciascun segnale audio l'identità di chi lo emette.

In seguito gli algoritmi consentiranno al sistema di riconoscere i diversi interventi appartenenti alle varie etichette all'interno del dominio del tempo, aggiornando ogni etichetta in tempo reale. In futuro gli sviluppatori sperano anche di rifinire ulteriormente la tecnologia in modo da integrare informazioni contestuali e consentire la decodifica offline in modo da ridurre ulteriormente la percentuale di errori.

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Articolo 1 di 5

Esseri umani sintetici invece di pazienti veri, il futuro della medicina?

L’impiego di dati creati artificialmente, combinato a modelli generativi, consente di realizzare studi complessi in tempi più contenuti. Strutture sanitarie e partner tecnologici intendono alzare la qualità dei protocolli, minimizzando vincoli e costi operativi.

Leggi questo articolo

Articolo 2 di 5

Quando il dato non esiste (ma funziona lo stesso): il paradosso dell’IA

L’intelligenza artificiale può operare efficacemente anche in assenza di dati reali, grazie ai dati sintetici. Questa tecnologia offre vantaggi ma solleva questioni di qualità e affidabilità.

Leggi questo articolo

Articolo 3 di 5

Il nuovo pulsante di Google inserisce automaticamente gli inviti su Calendar (finalmente)

L'IA continua la sua integrazione nei servizi di uso quotidiano, e Google fa un passo avanti nell'automazione della gestione degli impegni.

Leggi questo articolo

Articolo 4 di 5

L'IA arriva anche nelle penne: il testo viene inviato direttamente a ChatGPT

Questa penna integra batteria, microfono e radio Bluetooth che consentono la connessione con l'app mobile HearIt.AI e con ChatGPT.

Leggi questo articolo

Articolo 5 di 5

Avete 10 tentativi per evitare una catastrofe causata dall'IA: ci riuscirete?

Sfida il futuro: dimostra la superiorità del pensiero umano contro l'intelligenza artificiale in un gioco strategico innovativo.

Leggi questo articolo