La startup cinese DeepSeek, già nota per aver sviluppato un concorrente di ChatGPT addestrato su 2 trilioni di token in inglese e cinese, ha annunciato il rilascio di DeepSeek Coder V2, un modello di linguaggio di codice open-source basato su un'architettura "mixture of experts" (MoE). Questo nuovo modello basato su DeepSeek-V2, si distingue per le sue eccezionali capacità nei compiti di programmazione e matematica, supportando oltre 300 linguaggi di programmazione e superando modelli chiusi di punta come GPT-4 Turbo, Claude 3 Opus e Gemini 1.5 Pro.
Il modello DeepSeek Coder originale, con fino a 33 miliardi di parametri, aveva già ottenuto buoni risultati nei benchmark, con funzionalità come il completamento del codice a livello di progetto e l'infilling, ma supportava solo 86 linguaggi di programmazione e una finestra di contesto di 16K. La nuova versione V2 ha ampliato il supporto linguistico a 338 linguaggi e la finestra di contesto a 128K, permettendogli di gestire compiti di programmazione più complessi ed estesi.
Nei test condotti sui benchmark MBPP+, HumanEval e Aider, progettati per valutare la generazione di codice, l'editing e le capacità di risoluzione dei problemi dei modelli di linguaggio, DeepSeek Coder V2 ha ottenuto punteggi rispettivamente di 76.2, 90.2 e 73.7, superando la maggior parte dei modelli chiusi e open-source, tra cui GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral e Llama-3 70B. Prestazioni simili sono state osservate nei benchmark progettati per valutare le capacità matematiche del modello (MATH e GSM8K). L'unico modello che ha superato in più benchmark l'offerta di DeepSeek è stato GPT-4o, che ha ottenuto punteggi leggermente superiori in HumanEval, LiveCode Bench, MATH e GSM8K.
In the Arena-Hard-Auto leaderboard, DeepSeek-Coder-V2 surpasses Yi-large,Claude3-Opus, GLM4, and Qwen2-72B. pic.twitter.com/BJk7Gvwd3U
— DeepSeek (@deepseek_ai) June 17, 2024
DeepSeek ha affermato di aver raggiunto questi avanzamenti tecnici e prestazionali utilizzando DeepSeek V2, basato sul suo framework Mixture of Experts, come base. In sostanza, l'azienda ha pre-addestrato il modello base V2 su un ulteriore dataset di 6 trilioni di token, principalmente costituito da dati relativi a codice e matematica provenienti da GitHub e CommonCrawl. Questo permette al modello, disponibile in opzioni da 16B e 236B parametri, di attivare solo 2.4B e 21B parametri "esperti" per affrontare i compiti specifici, ottimizzando al contempo le esigenze di calcolo e applicazione diverse.
Oltre a eccellere nei compiti di programmazione e matematica, DeepSeek Coder V2 offre prestazioni di tutto rispetto anche nei compiti di ragionamento generale e comprensione linguistica. Ad esempio, nel benchmark MMLU, progettato per valutare la comprensione linguistica su più compiti, ha ottenuto un punteggio di 79.2. Questo risultato è significativamente migliore rispetto ad altri modelli specifici per il codice e quasi simile al punteggio di Llama-3 70B. Da parte loro, GPT-4o e Claude 3 Opus continuano a guidare la categoria MMLU con punteggi di 88.7 e 88.6 rispettivamente, mentre GPT-4 Turbo segue da vicino.
One of the most impressive teams in generative AI and open source killing it again!
— Emad (@EMostaque) June 17, 2024
The technical papers are amongst the best out there and performance has been exceptional from the final models with permissive licenses.
Great to see, everyone should try the 16b version 🚀 https://t.co/lmggkEgj2n
Questo sviluppo dimostra che i modelli open-source specifici per il codice stanno finalmente eccellendo in un'ampia gamma di compiti, non solo nei loro casi d'uso principali, e si stanno avvicinando ai modelli chiusi all'avanguardia. Attualmente, DeepSeek Coder V2 è offerto con una licenza MIT, che consente sia l'uso di ricerca che quello commerciale senza restrizioni. Gli utenti possono scaricare le versioni da 16B e 236B tramite Hugging Face, oppure accedere ai modelli tramite API sulla piattaforma dell'azienda con un modello a pagamento in base all'utilizzo. Inoltre, per coloro che desiderano testare le capacità dei modelli, l'azienda offre la possibilità di interagire con DeepSeek Coder V2 tramite chatbot.