Recentemente, l'azienda OpenAI ha lanciato GPT-4o, un nuovo modello avanzato di linguaggio artificiale che si distingue per le sue funzionalità innovative, tra cui la capacità di "vedere" attraverso le fotocamere degli utenti e di conversare in tempo reale. Tuttavia, nonostante i progressi, è emerso un grave problema riguardante la gestione della lingua cinese.
Per addestrare i modelli di intelligenza artificiale, sono necessari i token, unità di dati che rappresentano informazioni utilizzate dall'AI per "leggere" e apprendere. Ebbene, è stato scoperto che quasi tutti i 100 token cinesi più lunghi utilizzati dal GPT-4o contenevano contenuti inappropriati legati a pornografia e gioco d'azzardo. Questo ha causato risposte inadeguate e fuori contesto alle domande degli utenti, che si aspettavano interazioni normali e pertinenti.
L'AI ricercatore e dottorando a Princeton, Tianle Cai, ha evidenziato questa problematica in un post su Github, descrivendo la situazione come assurda e mettendo in luce la discrepanza tra la qualità delle risposte in inglese rispetto a quelle in cinese.
Il problema principale è stato identificato nell'insufficienza nella pulizia dei dati durante la fase di formazione dell'intelligenza artificiale, una sfida nota nel campo dell'AI che, secondo gli esperti, avrebbe potuto essere superata con maggiori accorgimenti. Per esempio, Deedy Das, investitore di AI presso Menlo Ventures ed ex membro del team di ricerca di Google, ha suggerito che la semplice auto-traduzione dei token per identificare parole chiave problematiche avrebbe potuto risolvere significativamente il problema, migliorando la qualità dei dati del 60%.
Tuttavia, sembra che questa precauzione non sia stata inclusa nelle priorità di OpenAI, nonostante il cinese sia la lingua con più madrelingua al mondo. Questa negligenza potrebbe avere ripercussioni non solo tecniche, ma anche culturali, escludendo di fatto una grande parte di utenti dalla piena fruizione delle potenzialità offerte dall'intelligenza artificiale.
Insomma, il caso solleva questioni importanti sull'importanza di una corretta gestione e pulizia dei dati nell'addestramento dei modelli di AI, soprattutto per assicurare un servizio equo e universale, che includa tutte le lingue e culture.