Uno dei motivi per cui DeepSeek ha fatto tanto clamore è il suo essere estremamente più economico dei modelli concorrenti, ma qui siamo su un altro livello. Alcuni ricercatori di Stanford e dell'Università di Washington hanno sviluppato un nuovo modello IA, battezzato s1, che offre prestazioni di ragionamento simili a quelli di o1 di OpenAI ed è costato meno di 50 dollari.
Il nuovo modello, già disponibile su GitHub in formato open source, è costato così poco perché i ricercatori hanno impiegato una tecnica innovativa, che abbatte quasi del tutto i costi: invece di addestrare un modello di ragionamento da zero, il team ha perfezionato un modello linguistico esistente attraverso la distillazione. In pratica, hanno estratto le capacità di ragionamento dal modello Gemini 2.0 Flash Thinking Experimental di Google e hanno addestrato il modello base per imitare il suo processo di risoluzione dei problemi, allenandolo su piccoli set di dati.
Il processo ha richiesto solo 30 minuti e l'impiego di 16 GPU H100, che se noleggiate corrispondono a una spesa di poco meno di 50 dollari. I ricercatori hanno poi insegnato al modello a verificare la correttezza dei propri ragionamenti prima di dare una risposta, ottenendo risultati ancora migliori.
Inutile dire che sarebbe stato impossibile creare questo modello senza l'ausilio di quello preesistente, inoltre è importante sottolineare che questo approccio presenta dei limiti. Innanzitutto, per quanto simile a o1 di OpenAI, rimane il dubbio che s1 non riesca a eguagliare le prestazioni dei migliori modelli IA attualmente sul mercato; secondariamente, c'è la possibilità che Google sollevi delle obiezioni sull'uso del suo modello per questi scopi.
Nonostante tutto, però, s1 potrebbe dare un'altra scossa al mondo dell'intelligenza artificiale, dimostrando ancora una volta che è possibile creare modelli efficaci anche con risorse limitate.