Claude 3.5 di Anthropic ora può controllare i vostri computer

Anthropic ha rilasciato una versione aggiornata del suo modello di intelligenza artificiale Claude 3.5 Sonnet, ora in grado di interagire con qualsiasi applicazione desktop. L'azienda ha presentato questa novità martedì, introducendo una nuova API chiamata "Computer Use" attualmente in fase di beta aperta.

Questa innovazione rappresenta un significativo passo avanti nel campo dell'automazione basata sull'intelligenza artificiale. Il modello aggiornato è in grado di emulare azioni umane come pressioni di tasti, clic del mouse e gesti, essenzialmente imitando una persona seduta davanti a un computer.

Alcuni analisti affermano che gli agenti IA potrebbero fornire alle aziende un modo più semplice per monetizzare i miliardi di dollari che stanno investendo nell'IA.

Anthropic ha spiegato in un post sul blog: "Abbiamo addestrato Claude a vedere cosa sta succedendo sullo schermo e poi a utilizzare gli strumenti software disponibili per svolgere alcuni compiti". Il modello analizza screenshot di ciò che è visibile all'utente e calcola di quanti pixel deve spostare il cursore verticalmente o orizzontalmente per cliccare nel punto corretto.

Gli sviluppatori possono testare Computer Use tramite l'API di Anthropic, Amazon Bedrock e la piattaforma Vertex AI di Google Cloud. La nuova versione 3.5 Sonnet, senza Computer Use, invece è in fase di distribuzione sulle app Claude e porta vari miglioramenti delle prestazioni rispetto al modello precedente.

L'idea di uno strumento in grado di automatizzare le attività su un PC non è nuova. Numerose aziende offrono tali strumenti, dai fornitori di RPA (Robotic Process Automation) attivi da decenni a startup più recenti come Relay, Induced AI e Automat.

Nella corsa allo sviluppo dei cosiddetti "agenti IA", il campo è diventato ancora più affollato. Il termine "agenti IA" rimane mal definito, ma generalmente si riferisce all'intelligenza artificiale in grado di automatizzare il software.

Anthropic definisce il suo approccio al concetto di "agente IA" come un "livello di esecuzione delle azioni" che consente al nuovo 3.5 Sonnet di eseguire comandi a livello desktop. Grazie alla sua capacità di navigare sul web (non una novità per i modelli IA, ma una prima volta per Anthropic), 3.5 Sonnet può visitare qualsiasi sito web e utilizzare praticamente qualsiasi applicazione.

Un portavoce di Anthropic ha dichiarato a TechCrunch:

Gli esseri umani mantengono il controllo fornendo prompt specifici che dirigono le azioni di Claude, come 'usa i dati dal mio computer e online per compilare questo modulo'. Le persone abilitano e limitano l'accesso secondo necessità. Claude scompone i prompt dell'utente in comandi per il computer (ad esempio, spostare il cursore, cliccare, digitare) per svolgere quel compito specifico.

La piattaforma di sviluppo software Replit ha utilizzato una versione preliminare del nuovo modello 3.5 Sonnet per creare un "verificatore autonomo" in grado di valutare le app durante la loro costruzione. Canva, nel frattempo, afferma di star esplorando modi in cui il nuovo modello potrebbe supportare il processo di progettazione e modifica.

Nonostante i progressi, il nuovo modello 3.5 Sonnet presenta ancora alcune limitazioni. In una valutazione progettata per testare la capacità di un agente IA nell'aiutare la gestione di una prenotazione aerea, modificando i dettagli di volo per esempio, il nuovo 3.5 Sonnet è riuscito a completare con successo meno della metà dei compiti. In un test separato che coinvolgeva attività come l'avvio di un reso, 3.5 Sonnet ha fallito circa un terzo delle volte.

Anthropic ammette che il nuovo 3.5 Sonnet ha ancora qualche difficoltà con azioni di base come lo scorrimento e lo zoom, e che può mancare alcune azioni maggiormente rapide a causa del modo in cui cattura e ricompone gli screenshot.

"L'uso del computer da parte di Claude rimane lento e spesso soggetto a errori", scrive Anthropic nel suo post. "Incoraggiamo gli sviluppatori a iniziare l'esplorazione con attività a basso rischio".

Anthropic riconosce i potenziali rischi legati al rilascio del nuovo 3.5 Sonnet, ma sostiene che i benefici derivanti dall'osservazione di come il modello viene utilizzato in natura superano in definitiva questi rischi.

L'azienda afferma di aver adottato misure per scoraggiare l'uso improprio, come non addestrare il nuovo 3.5 Sonnet sugli screenshot e i prompt degli utenti, e impedire al modello di accedere al web durante l'addestramento.

Anthropic afferma di aver sviluppato classificatori per "spingere" 3.5 Sonnet lontano da azioni percepite come ad alto rischio, come postare sui social media, creare account e interagire con siti web governativi.

Con l'avvicinarsi delle elezioni generali negli Stati Uniti, Anthropic afferma di essere concentrata sulla mitigazione dell'abuso dei suoi modelli legato alle elezioni.

Oltre all'aggiornamento di 3.5 Sonnet, Anthropic ha annunciato l'imminente rilascio di una versione aggiornata di Haiku, il modello più economico ed efficiente della sua serie Claude.

Claude 3.5 Haiku, previsto nelle prossime settimane, eguaglierà le prestazioni di Claude 3 Opus, una volta il modello più avanzato di Anthropic.

Anthropic afferma che, con bassa latenza, migliore esecuzione delle istruzioni e uso più accurato degli strumenti, Claude 3.5 Haiku è particolarmente adatto per prodotti rivolti agli utenti.

Il rilascio di questi nuovi modelli segna un importante passo in avanti per Anthropic nel campo dell'intelligenza artificiale, offrendo nuove possibilità di automazione e interazione con i software desktop.

Fonte dell'articolo: techcrunch.com