Apple svela le falle nel ragionamento delle IA

Un nuovo studio condotto da Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale

Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author

Un nuovo studio condotto da sei ingegneri Apple mette in luce i limiti delle capacità di ragionamento matematico dei modelli linguistici di intelligenza artificiale più avanzati.

La ricerca, intitolata "GSM-Symbolic", ha rivelato che modifiche apparentemente banali ai problemi matematici standard possono portare a cali significativi nelle prestazioni di questi sistemi IA.

La fragilità evidenziata da questi nuovi risultati supporta ricerche precedenti.

Lo studio si è concentrato sul benchmark GSM8K, un set di oltre 8.000 problemi matematici di livello elementare spesso utilizzato per valutare le capacità di ragionamento complesso dei modelli linguistici.

I ricercatori hanno creato una nuova versione chiamata GSM-Symbolic, modificando nomi e numeri nei problemi originali senza alterarne la difficoltà matematica intrinseca.

Testando oltre 20 modelli linguistici all'avanguardia su GSM-Symbolic, i ricercatori hanno riscontrato cali di accuratezza tra lo 0,3% e il 9,2% rispetto ai risultati su GSM8K. Inoltre, è emersa un'elevata varianza tra diverse esecuzioni del test, con differenze di accuratezza fino al 15% per lo stesso modello.

Questi risultati suggeriscono che i modelli non stanno effettuando un vero ragionamento formale, ma piuttosto cercando di replicare pattern simili visti nei dati di addestramento.

Come affermano i ricercatori"Gli attuali modelli linguistici di grandi dimensioni non sono capaci di un genuino ragionamento logico. Invece, tentano di replicare i passaggi di ragionamento osservati nei loro dati di addestramento."

La situazione peggiora ulteriormente quando i ricercatori hanno aggiunto informazioni irrilevanti ai problemi, creando il benchmark "GSM-NoOp". Questo ha portato a cali "catastrofici" nelle prestazioni, con riduzioni di accuratezza tra il 17,5% e il 65,7%.

Questi risultati evidenziano i limiti intrinseci nell'utilizzo del semplice "pattern matching" per affrontare problemi di ragionamento complesso.

Come spiega Gary Marcus, esperto di IA: "Il prossimo grande passo avanti nelle capacità dell'IA arriverà solo quando queste reti neurali potranno integrare una vera manipolazione di simboli, in cui alcune conoscenze sono rappresentate in modo veramente astratto in termini di variabili e operazioni su quelle variabili, come vediamo nell'algebra e nella programmazione tradizionale."

Lo studio mette in luce la fragilità delle attuali capacità di "ragionamento" delle IA e suggerisce che, nonostante i progressi impressionanti, siamo ancora lontani da una vera comprensione matematica e logica paragonabile a quella umana.

Questi risultati potrebbero guidare lo sviluppo futuro di sistemi di IA più robusti e affidabili per compiti che richiedono un ragionamento complesso.

Leggi altri articoli