Pokémon Rosso usato come benchmark per un modello IA (ed è pure bravo)

Pokémon in veste di tester: Anthropic utilizza i mostriciattoli tascabili per valutare le prestazioni del suo nuovo modello IA Claude 3.7 Sonnet.

Avatar di Giulia Serena

a cura di Giulia Serena

Editor

L'azienda di intelligenza artificiale Anthropic ha testato il suo ultimo modello AI, Claude 3.7 Sonnet, sul videogioco classico Pokémon Rosso per Game Boy. Il test è stato annunciato in un post sul blog dell'azienda pubblicato lunedì.

Anthropic ha dotato il modello di memoria di base, input dei pixel dello schermo e funzioni per premere i pulsanti e navigare nel gioco, permettendogli di giocare a Pokémon in modo continuativo. Una caratteristica unica di Claude 3.7 Sonnet è la sua capacità di "pensiero esteso", che gli consente di ragionare su problemi complessi applicando più potenza di calcolo e impiegando più tempo.

Questa capacità si è rivelata utile in Pokémon Rosso. Mentre una versione precedente del modello, Claude 3.0 Sonnet, non era riuscita nemmeno a lasciare la casa iniziale del gioco, Claude 3.7 Sonnet è riuscito a sconfiggere tre capipalestra e ottenere le relative medaglie. Insomma, mica male per un'intelligenza artificiale.

Anthropic non ha specificato quante risorse di calcolo siano state necessarie per raggiungere questi traguardi, né quanto tempo abbia impiegato il modello. L'azienda ha solo dichiarato che sono state eseguite 35.000 azioni per arrivare all'ultimo capopalestra affrontato.

Sebbene Pokémon Rosso possa sembrare un test poco significativo per noi esseri umani, in realtà c'è una lunga tradizione nell'uso dei videogiochi come benchmark per l'intelligenza artificiale. Negli ultimi mesi sono emerse diverse nuove applicazioni e piattaforme per testare le capacità di gioco dei modelli AI su titoli che vanno da Street Fighter a Pictionary. Questi test permettono di valutare in modo pratico e misurabile le capacità di ragionamento, pianificazione e decision-making dei sistemi di intelligenza artificiale in ambienti interattivi complessi.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite. Vuoi accedere?


Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.