OpenAI ha annunciato un aggiornamento del modello GPT-4o per ChatGPT, ma secondo un rapporto di Artificial Analysis le prestazioni del modello sarebbero significativamente peggiorate nelle ultime settimane, raggiungendo livelli paragonabili al più limitato GPT-4o-mini.
L'analisi indipendente di Artificial Analysis, pubblicata su X, evidenzia un calo delle prestazioni di GPT-4o su diversi parametri chiave rispetto alla versione di agosto. L'Artificial Analysis Quality Index è sceso da 77 a 71, eguagliando quello di GPT-4o mini. Anche i risultati su altri benchmark come GPQA Diamond e MATH sono peggiorati sensibilmente.
Contemporaneamente, i ricercatori hanno rilevato un aumento della velocità di risposta del modello, passata da circa 80 a 180 token al secondo. Questo incremento di velocità, unito al calo delle prestazioni, ha portato gli analisti a ipotizzare che la nuova versione di GPT-4o sia in realtà un modello più piccolo e meno capace rispetto a quello precedente.
Sulla base di questi dati, Artificial Analysis consiglia agli sviluppatori di "non spostare i carichi di lavoro dalla versione di agosto senza un'attenta verifica", dato che OpenAI non ha ridotto i prezzi per la nuova release nonostante il presunto downgrade delle capacità.
Questa notizia arriva in contrasto con l'annuncio di OpenAI, che solo il giorno prima aveva dichiarato miglioramenti nelle capacità di scrittura creativa e di analisi di file caricati per GPT-4o. L'azienda aveva affermato che il modello era diventato "più naturale, coinvolgente e su misura per migliorare rilevanza e leggibilità".
Il presunto peggioramento delle prestazioni di GPT-4o, se confermato, potrebbe avere importanti ripercussioni nel settore dell'intelligenza artificiale. GPT-4o è considerato uno dei modelli linguistici più avanzati, utilizzato per applicazioni come traduzioni in tempo reale e conversazioni con l'IA.
Wait - is the new GPT-4o a smaller and less intelligent model?
— Artificial Analysis (@ArtificialAnlys) November 21, 2024
We have completed running our independent evals on OpenAI’s GPT-4o release yesterday and are consistently measuring materially lower eval scores than the August release of GPT-4o.
GPT-4o (Nov) vs GPT-4o (Aug):
➤… pic.twitter.com/gjY2pBFuUv
Basti pensare che ChatGPT è stato implementato anche in Apple Intelligence (disponibile a breve anche nei nuovi iPhone 16) per le sue enormi potenzialità, integrandolo con Siri per produrre dei risultati sempre precisi e accurati.
Questa situazione solleva alcuni interrogativi sulla trasparenza delle aziende di IA riguardo agli aggiornamenti dei loro modelli e sull'affidabilità delle metriche di valutazione. Evidenzia inoltre l'importanza di test indipendenti per verificare le prestazioni effettive dei sistemi di IA, in seguito ai vari aggiornamenti proposti dalle aziende.
Gli sviluppatori e le aziende che utilizzano GPT-4o potrebbero dover riconsiderare l'adozione della nuova versione, valutando attentamente se i presunti miglioramenti di velocità compensino l'apparente calo di capacità in altri ambiti.