Alibaba rilascia Qwen2-Math, una serie di LLM per risolvere problemi matematici

Il team Qwen di Alibaba Cloud ha rilasciato Qwen2-Math, una famiglia di LLM pensati specificamente per risolvere problemi matematici complessi.

a cura di Marina Londei

Editor

Pubblicato il 13/08/2024 alle 09:00

Il team Qwen di Alibaba Cloud ha rilasciato Qwen2-Math, una serie di LLM specifici per la risoluzione di problemi di matematica complessi.

Al momento fanno parte della famiglia Qwen2-Math e Qwen2-Math-Instruct nelle versioni da 1,5B, 7B e 72B di parametri. Secondo il team di Qwen, i due LLM "superano significativamente le capacità matematica dei modelli open-source e persino di quelli closed-source (per esempio GPT-4o)".

I due modelli sono stati addestrati su un dataset di testi, libri, porzioni di codice e domande di esami di matematica. La valutazione dei due LLM è avvenuta usando sei benchmark matematici noti: il GSK8K, il Math, l'MMLU-STEM, il CMATH, il GaoKao Math Cloe e il GaoKao Math QA.

I risultati dei due modelli sono stati confrontati con Llama 3.1-8B, Llama 3.1-70B, Llama 3.1-405B, DeepSeekMath-Base-7B, DeepSeek-Coder-V2-Lite-Base, Internlm2-Math-Base-20B, GPT-4o, Claude-3.5-Sonnet e Gemini-1.5-Pro.

Qwen2-Math e Qwen2-Math-Instruct hanno superato le performance degli altri modelli per qualsiasi benchmark utilizzato.

Il team di Qwen ha condiviso anche alcuni casi di studio per dimostrare le capacità dei due modelli. Nel dettaglio, gli LLM sono riusciti a risolvere problemi matematici complessi di diverse competizioni matematiche mondiali, tra le quali IMO (International Mathematical Olympiad), Math Odyssey e JBMO (Junior Balkan Mathematical Olympiad).

Per garantire l'integrità e l'accuratezza dei modelli, il team ha eseguito una serie di step di "decontaminazione" sia nei dataset di pre-training che di post-training per eliminare i problemi duplicati e gli eventuali esempi che combaciavano con quelli presenti nei benchmark.

Al momento gli LLM supportano solo la lingua inglese, ma il team di Qwen ha intenzione di rilasciare modelli in grado di comprendere anche il cinese e, in futuro, altre tra le lingue più parlato. "Continueremo a migliorare l'abilità dei nostri modelli di risolvere problemi matematici complessi e sfidanti" conclude il team.

Leggi altri articoli

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Articolo 1 di 5

Migliori smartphone con IA integrata (aprile 2025)

La parola d'ordine per il mercato smartphone del 2025 è "intelligenza artificiale", ma come scegliere il migliore prodotto dotato di IA?

Leggi questo articolo

Articolo 2 di 5

Questo LLM di Microsoft è così leggero che può girare su un vecchio MacBook

Il modello è disponibile anche su Hugging Face, per consentire a chiunque di sperimentare con esso.

Leggi questo articolo

Articolo 3 di 5

Esseri umani sintetici invece di pazienti veri, il futuro della medicina?

L’impiego di dati creati artificialmente, combinato a modelli generativi, consente di realizzare studi complessi in tempi più contenuti. Strutture sanitarie e partner tecnologici intendono alzare la qualità dei protocolli, minimizzando vincoli e costi operativi.

Leggi questo articolo

Articolo 4 di 5

AMD democratizza l'IA con il progetto Gaia: LLM open source per tutti

AMD ha recentemente lanciato Gaia, un progetto open-source che consente di eseguire modelli LLM in locale su qualsiasi PC Windows.

Leggi questo articolo

Articolo 5 di 5

Quando il dato non esiste (ma funziona lo stesso): il paradosso dell’IA

L’intelligenza artificiale può operare efficacemente anche in assenza di dati reali, grazie ai dati sintetici. Questa tecnologia offre vantaggi ma solleva questioni di qualità e affidabilità.

Leggi questo articolo