Dalla Cina un modello IA open-source più potente di GPT-4 Turbo, si chiama DeepSeek Coder V2

DeepSeek Coder V2 è un modello open-source in grado di superare i modelli chiusi più avanzati, come GPT-4 Turbo, in compiti di programmazione e matematica.

Avatar di Marco Silvestri

a cura di Marco Silvestri

Editor

La startup cinese DeepSeek, già nota per aver sviluppato un concorrente di ChatGPT addestrato su 2 trilioni di token in inglese e cinese, ha annunciato il rilascio di DeepSeek Coder V2, un modello di linguaggio di codice open-source basato su un'architettura "mixture of experts" (MoE). Questo nuovo modello basato su DeepSeek-V2, si distingue per le sue eccezionali capacità nei compiti di programmazione e matematica, supportando oltre 300 linguaggi di programmazione e superando modelli chiusi di punta come GPT-4 Turbo, Claude 3 Opus e Gemini 1.5 Pro.

Il modello DeepSeek Coder originale, con fino a 33 miliardi di parametri, aveva già ottenuto buoni risultati nei benchmark, con funzionalità come il completamento del codice a livello di progetto e l'infilling, ma supportava solo 86 linguaggi di programmazione e una finestra di contesto di 16K. La nuova versione V2 ha ampliato il supporto linguistico a 338 linguaggi e la finestra di contesto a 128K, permettendogli di gestire compiti di programmazione più complessi ed estesi.

Nei test condotti sui benchmark MBPP+, HumanEval e Aider, progettati per valutare la generazione di codice, l'editing e le capacità di risoluzione dei problemi dei modelli di linguaggio, DeepSeek Coder V2 ha ottenuto punteggi rispettivamente di 76.2, 90.2 e 73.7, superando la maggior parte dei modelli chiusi e open-source, tra cui GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral e Llama-3 70B. Prestazioni simili sono state osservate nei benchmark progettati per valutare le capacità matematiche del modello (MATH e GSM8K). L'unico modello che ha superato in più benchmark l'offerta di DeepSeek è stato GPT-4o, che ha ottenuto punteggi leggermente superiori in HumanEval, LiveCode Bench, MATH e GSM8K.

DeepSeek ha affermato di aver raggiunto questi avanzamenti tecnici e prestazionali utilizzando DeepSeek V2, basato sul suo framework Mixture of Experts, come base. In sostanza, l'azienda ha pre-addestrato il modello base V2 su un ulteriore dataset di 6 trilioni di token, principalmente costituito da dati relativi a codice e matematica provenienti da GitHub e CommonCrawl. Questo permette al modello, disponibile in opzioni da 16B e 236B parametri, di attivare solo 2.4B e 21B parametri "esperti" per affrontare i compiti specifici, ottimizzando al contempo le esigenze di calcolo e applicazione diverse.

Oltre a eccellere nei compiti di programmazione e matematica, DeepSeek Coder V2 offre prestazioni di tutto rispetto anche nei compiti di ragionamento generale e comprensione linguistica. Ad esempio, nel benchmark MMLU, progettato per valutare la comprensione linguistica su più compiti, ha ottenuto un punteggio di 79.2. Questo risultato è significativamente migliore rispetto ad altri modelli specifici per il codice e quasi simile al punteggio di Llama-3 70B. Da parte loro, GPT-4o e Claude 3 Opus continuano a guidare la categoria MMLU con punteggi di 88.7 e 88.6 rispettivamente, mentre GPT-4 Turbo segue da vicino.

Questo sviluppo dimostra che i modelli open-source specifici per il codice stanno finalmente eccellendo in un'ampia gamma di compiti, non solo nei loro casi d'uso principali, e si stanno avvicinando ai modelli chiusi all'avanguardia. Attualmente, DeepSeek Coder V2 è offerto con una licenza MIT, che consente sia l'uso di ricerca che quello commerciale senza restrizioni. Gli utenti possono scaricare le versioni da 16B e 236B tramite Hugging Face, oppure accedere ai modelli tramite API sulla piattaforma dell'azienda con un modello a pagamento in base all'utilizzo. Inoltre, per coloro che desiderano testare le capacità dei modelli, l'azienda offre la possibilità di interagire con DeepSeek Coder V2 tramite chatbot.

0 Commenti

Stai commentando come Ospite. Vuoi accedere?


Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.