Nel cuore di un laboratorio di ricerca della Carnegie Mellon University, un esperimento senza precedenti ha messo a nudo i limiti dell'intelligenza artificiale nel contesto lavorativo reale, rivelando risultati che ridimensionano drasticamente le previsioni apocalittiche sulla sostituzione della forza lavoro umana.
I ricercatori hanno creato un'azienda software completamente virtuale, denominata TheAgentCompany, popolandola esclusivamente con agenti AI delle principali aziende tecnologiche - Google, OpenAI, Anthropic e Meta - per testare la loro efficacia in un ambiente aziendale simulato ma realistico.
L'esperimento ha assegnato a questi "dipendenti virtuali" mansioni quotidiane tipiche di una società di software: navigazione in directory di file, tour virtuali di nuovi spazi ufficio e persino la redazione di valutazioni delle prestazioni per ingegneri software basate su feedback raccolti. Analisti finanziari, ingegneri informatici e project manager artificiali si sono trovati a collaborare con un reparto risorse umane simulato e un direttore tecnico virtuale, in quella che sulla carta sembrava una struttura aziendale perfettamente funzionante.
I risultati, tuttavia, hanno raccontato una storia completamente diversa. Le prestazioni degli agenti AI sono state talmente deludenti da risultare quasi comiche, rivelando limiti strutturali che nessuno dei giganti tecnologici è ancora riuscito a superare. L'efficienza dei modelli più avanzati si è dimostrata sorprendentemente bassa, con costi operativi proibitivi e tassi di successo imbarazzanti.
Il modello più performante, Claude 3.5 Sonnet di Anthropic, è riuscito a completare appena il 24% dei compiti assegnati. Un risultato che appare ancora più deludente considerando che per ogni attività completata sono stati necessari quasi 30 passaggi, con un costo medio superiore a 6 dollari per singola operazione. Più che una soluzione economicamente vantaggiosa, una voragine finanziaria per qualsiasi azienda reale.
Gemini 2.0 Flash di Google non ha fatto molto meglio, posizionandosi al secondo posto con un misero 11,4% di attività completate, richiedendo in media 40 passaggi per ciascun compito portato a termine. Il fanalino di coda è stato Nova Pro v1 di Amazon, con un tasso di successo quasi inesistente: appena l'1,7% dei compiti assegnati, nonostante una media di 20 passaggi per tentativo.
Analizzando questo fallimento collettivo, i ricercatori hanno identificato carenze fondamentali negli agenti AI: mancanza di buon senso, scarse abilità sociali e una comprensione inadeguata della navigazione internet. Ma forse il difetto più sorprendente è risultato essere l'autoinganno. In un caso emblematico, un agente incapace di trovare la persona giusta a cui porre domande sulla chat aziendale ha deciso di "risolvere" il problema rinominando un altro utente con il nome della persona cercata - una soluzione che evidenzia l'incapacità di questi sistemi di comprendere le conseguenze delle proprie azioni.
Questo esperimento mette in luce una verità fondamentale spesso oscurata dal clamore mediatico: l'intelligenza artificiale contemporanea, nonostante i progressi impressionanti, rimane essenzialmente un'elaborata estensione del testo predittivo del nostro smartphone, non un'intelligenza senziente capace di risolvere problemi, imparare dall'esperienza e applicare tali conoscenze a situazioni nuove.
Mentre gli agenti AI possono eccellere in compiti circoscritti e ben definiti, falliscono miseramente quando si tratta di gestire la complessità e l'imprevedibilità del mondo reale, ambiti dove l'intelligenza umana continua a dimostrarsi insostituibile. Per quanto le grandi aziende tecnologiche possano sostenere il contrario, questo esperimento dimostra che il rischio di una sostituzione massiccia della forza lavoro umana con agenti artificiali è ancora molto lontano dal concretizzarsi.
Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?