Alibaba rilascia Qwen2-Math, una serie di LLM per risolvere problemi matematici

Il team Qwen di Alibaba Cloud ha rilasciato Qwen2-Math, una famiglia di LLM pensati specificamente per risolvere problemi matematici complessi.

Avatar di Marina Londei

a cura di Marina Londei

Editor

Il team Qwen di Alibaba Cloud ha rilasciato Qwen2-Math, una serie di LLM specifici per la risoluzione di problemi di matematica complessi. 

Al momento fanno parte della famiglia Qwen2-Math e Qwen2-Math-Instruct nelle versioni da 1,5B, 7B e 72B di parametri. Secondo il team di Qwen, i due LLM "superano significativamente le capacità matematica dei modelli open-source e persino di quelli closed-source (per esempio GPT-4o)".

I due modelli sono stati addestrati su un dataset di testi, libri, porzioni di codice e domande di esami di matematica. La valutazione dei due LLM è avvenuta usando sei benchmark matematici noti: il GSK8K, il Math, l'MMLU-STEM, il CMATH, il GaoKao Math Cloe e il GaoKao Math QA.

I risultati dei due modelli sono stati confrontati con Llama 3.1-8B, Llama 3.1-70B, Llama 3.1-405B, DeepSeekMath-Base-7B, DeepSeek-Coder-V2-Lite-Base, Internlm2-Math-Base-20B, GPT-4o, Claude-3.5-Sonnet e Gemini-1.5-Pro.

Qwen2-Math e Qwen2-Math-Instruct hanno superato le performance degli altri modelli per qualsiasi benchmark utilizzato. 

Il team di Qwen ha condiviso anche alcuni casi di studio per dimostrare le capacità dei due modelli. Nel dettaglio, gli LLM sono riusciti a risolvere problemi matematici complessi di diverse competizioni matematiche mondiali, tra le quali IMO (International Mathematical Olympiad), Math Odyssey e JBMO (Junior Balkan Mathematical Olympiad).

Per garantire l'integrità e l'accuratezza dei modelli, il team ha eseguito una serie di step di "decontaminazione" sia nei dataset di pre-training che di post-training per eliminare i problemi duplicati e gli eventuali esempi che combaciavano con quelli presenti nei benchmark.

Al momento gli LLM supportano solo la lingua inglese, ma il team di Qwen ha intenzione di rilasciare modelli in grado di comprendere anche il cinese e, in futuro, altre tra le lingue più parlato. "Continueremo a migliorare l'abilità dei nostri modelli di risolvere problemi matematici complessi e sfidanti" conclude il team. 

Leggi altri articoli