L'azienda di intelligenza artificiale Hume ha presentato una demo tramite un video YouTube che integra la tecnologia Computer Use di Anthropic con la propria interfaccia vocale empatica EVI. La dimostrazione mostra un utente che controlla un gioco di scacchi sul computer utilizzando solo comandi vocali, senza bisogno di tastiera o mouse.
L'innovazione risiede nell'unione di diverse tecnologie avanzate: il modello Claude di Anthropic gestisce le interazioni con il computer "vedendo" lo schermo e attivando le funzioni, mentre EVI di Hume traduce i comandi vocali in testo e viceversa. Il risultato è un'interazione fluida e naturale tra uomo e macchina.
Secondo Alan Cowen, co-fondatore di Hume:
"Integrando Claude con EVI abbiamo creato qualcosa di davvero speciale. Le capacità avanzate di linguaggio naturale di Claude si uniscono alla comprensione dell'espressività e all'empatia di EVI, permettendo conversazioni fluide e contestuali che sembrano sorprendentemente umane".
Dietro questa apparente semplicità si cela una tecnologia molto sofisticata. La collaborazione tra Claude e Hume ha portato a oltre 2 milioni di minuti di conversazioni vocali AI, con un miglioramento del 10% nella latenza e una riduzione dei costi dell'80%.
Questa demo, insieme ad altre innovazioni come l'Advanced Voice mode di OpenAI, indica un futuro in cui l'interazione vocale con l'intelligenza artificiale diventerà preponderante. Come afferma Cowen: "Tra qualche anno l'AI vocale sarà onnipresente, diventando la principale interfaccia per le interazioni uomo-AI".
Unendo il controllo autonomo di Claude alla risposta espressiva e rapida di Hume, questa tecnologia offre uno sguardo su come potrebbe evolvere l'interazione tra uomo e macchina. Le reazioni a questo scenario dipenderanno dalla visione personale sull'AI e sul ruolo degli umani in un mondo sempre più tecnologico.
Insomma, la demo di Hume rappresenta un passo significativo verso un'interfaccia uomo-macchina più naturale e intuitiva, aprendo nuove possibilità ma sollevando anche interrogativi sul futuro delle interazioni digitali. C'è da dire, però, che l'idea di controllare i computer con la voce ha radici profonde nella fantascienza e nell'immaginario collettivo. Già negli anni '60, la serie televisiva Star Trek mostrava l'equipaggio dell'Enterprise che interagiva verbalmente con il computer di bordo, anticipando di decenni la tecnologia che oggi stiamo sviluppando.
Tuttavia, i primi veri tentativi di riconoscimento vocale risalgono agli anni '50, quando i Bell Labs crearono "Audrey", un sistema in grado di riconoscere le cifre pronunciate da una singola voce. Negli anni '60, IBM sviluppò "Shoebox", capace di comprendere 16 parole in inglese.
Il progresso è stato lento ma costante. Negli anni '90, Dragon Systems lanciò il primo software di riconoscimento vocale per consumatori, Dragon NaturallySpeaking, che richiedeva però lunghe sessioni di addestramento per funzionare correttamente.