Un'intera azienda fatta da agenti AI? Non è andata bene

La ricerca di Carnegie Melon svela una realtà (ovvia ma) deludente: un'azienda software gestita interamente da agenti AI fallisce miseramente.

Avatar di Luca Zaninello

a cura di Luca Zaninello

Managing Editor

4

Nel cuore di un laboratorio di ricerca della Carnegie Mellon University, un esperimento senza precedenti ha messo a nudo i limiti dell'intelligenza artificiale nel contesto lavorativo reale, rivelando risultati che ridimensionano drasticamente le previsioni apocalittiche sulla sostituzione della forza lavoro umana.

I ricercatori hanno creato un'azienda software completamente virtuale, denominata TheAgentCompany, popolandola esclusivamente con agenti AI delle principali aziende tecnologiche - Google, OpenAI, Anthropic e Meta - per testare la loro efficacia in un ambiente aziendale simulato ma realistico.

L'esperimento ha assegnato a questi "dipendenti virtuali" mansioni quotidiane tipiche di una società di software: navigazione in directory di file, tour virtuali di nuovi spazi ufficio e persino la redazione di valutazioni delle prestazioni per ingegneri software basate su feedback raccolti. Analisti finanziari, ingegneri informatici e project manager artificiali si sono trovati a collaborare con un reparto risorse umane simulato e un direttore tecnico virtuale, in quella che sulla carta sembrava una struttura aziendale perfettamente funzionante.

I risultati, tuttavia, hanno raccontato una storia completamente diversa. Le prestazioni degli agenti AI sono state talmente deludenti da risultare quasi comiche, rivelando limiti strutturali che nessuno dei giganti tecnologici è ancora riuscito a superare. L'efficienza dei modelli più avanzati si è dimostrata sorprendentemente bassa, con costi operativi proibitivi e tassi di successo imbarazzanti.

Il modello più performante, Claude 3.5 Sonnet di Anthropic, è riuscito a completare appena il 24% dei compiti assegnati. Un risultato che appare ancora più deludente considerando che per ogni attività completata sono stati necessari quasi 30 passaggi, con un costo medio superiore a 6 dollari per singola operazione. Più che una soluzione economicamente vantaggiosa, una voragine finanziaria per qualsiasi azienda reale.

Gemini 2.0 Flash di Google non ha fatto molto meglio, posizionandosi al secondo posto con un misero 11,4% di attività completate, richiedendo in media 40 passaggi per ciascun compito portato a termine. Il fanalino di coda è stato Nova Pro v1 di Amazon, con un tasso di successo quasi inesistente: appena l'1,7% dei compiti assegnati, nonostante una media di 20 passaggi per tentativo.

L'intelligenza artificiale odierna rimane solo un'elaborata estensione del testo predittivo

Analizzando questo fallimento collettivo, i ricercatori hanno identificato carenze fondamentali negli agenti AI: mancanza di buon senso, scarse abilità sociali e una comprensione inadeguata della navigazione internet. Ma forse il difetto più sorprendente è risultato essere l'autoinganno. In un caso emblematico, un agente incapace di trovare la persona giusta a cui porre domande sulla chat aziendale ha deciso di "risolvere" il problema rinominando un altro utente con il nome della persona cercata - una soluzione che evidenzia l'incapacità di questi sistemi di comprendere le conseguenze delle proprie azioni.

Questo esperimento mette in luce una verità fondamentale spesso oscurata dal clamore mediatico: l'intelligenza artificiale contemporanea, nonostante i progressi impressionanti, rimane essenzialmente un'elaborata estensione del testo predittivo del nostro smartphone, non un'intelligenza senziente capace di risolvere problemi, imparare dall'esperienza e applicare tali conoscenze a situazioni nuove.

Mentre gli agenti AI possono eccellere in compiti circoscritti e ben definiti, falliscono miseramente quando si tratta di gestire la complessità e l'imprevedibilità del mondo reale, ambiti dove l'intelligenza umana continua a dimostrarsi insostituibile. Per quanto le grandi aziende tecnologiche possano sostenere il contrario, questo esperimento dimostra che il rischio di una sostituzione massiccia della forza lavoro umana con agenti artificiali è ancora molto lontano dal concretizzarsi.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

4 Commenti

⚠️ Stai commentando come Ospite. Vuoi accedere?


Era abbastanza ovvio sinceramente...
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Più che prevedibile, eppure ci sono sostenitori di questa malsana "ideologia".
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Pensavano forse di avere a disposizione l'AGI?
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

onestamente bisogna vedere se la comicità del risultato non vada attribuita ai dev dell'infrastruttura artificiale
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Articolo apparentemente più frutto di ideologia che di lucidità. Umanamente capisco l’attaccamento morboso all’ “insostituibilità” dell’ intelligenza umana (che non mi pare poi così diffusa nemmeno tra gli umani stessi). Ci rivediamo tra 2 anni 😉
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.