Alibaba Qwen QwQ-32B: vetrina dell’apprendimento per rinforzo scalato

Il team Qwen di Alibaba ha presentato QwQ-32B, un modello di intelligenza artificiale da 32 miliardi di parametri che ha dimostrato di poter competere con il più grande DeepSeek-R1. Questa scoperta evidenzia il potenziale della scalabilità dell’Apprendimento Rinforzato (RL) su modelli di base robusti.

Il team di Qwen ha integrato con successo le capacità degli agenti nel modello di ragionamento, consentendogli di pensare in modo critico, di utilizzare gli strumenti e di adattare il ragionamento in base al feedback ambientale.

“La scalabilità dell’RL ha il potenziale per migliorare le prestazioni del modello al di là dei metodi convenzionali di pre-formazione e post-formazione”, ha dichiarato il team. “Studi recenti hanno dimostrato che l’RL può migliorare significativamente le capacità di ragionamento dei modelli”

QwQ-32B raggiunge prestazioni paragonabili a quelle di DeepSeek-R1, che vanta 671 miliardi di parametri (con 37 miliardi di parametri attivati), a riprova dell’efficacia dell’RL quando viene applicato a modelli di base robusti e preaddestrati sulla base di un’ampia conoscenza del mondo. Questo notevole risultato sottolinea il potenziale di RL nel colmare il divario tra le dimensioni del modello e le prestazioni.

Il modello è stato valutato attraverso una serie di benchmark, tra cui AIME24, LiveCodeBench, LiveBench, IFEval e BFCL, progettati per valutare il ragionamento matematico, la capacità di codifica e le capacità generali di risoluzione dei problemi.

I risultati evidenziano le prestazioni di QwQ-32B rispetto ad altri modelli leader, tra cui DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e il DeepSeek-R1 originale.

Risultati dei benchmark:

AIME24: QwQ-32B ha ottenuto un punteggio di 79,5, leggermente inferiore al 79,8 di DeepSeek-R1-6718, ma nettamente superiore al 63,6 di OpenAl-o1-mini e ai modelli distillati.
LiveCodeBench: QwQ-32B ha ottenuto un punteggio di 63,4, anche in questo caso molto vicino al 65,9 di DeepSeek-R1-6718 e superando i modelli distillati e il 53,8 di OpenAl-o1-mini.
LiveBench: QwQ-32B ha ottenuto 73,1, mentre DeepSeek-R1-6718 ha ottenuto 71,6, superando i modelli distillati e OpenAl-o1-mini (57,5).
IFEval: QwQ-32B ha ottenuto un punteggio di 83,9, molto vicino all’83,3 di DeepSeek-R1-6718, superando i modelli distillati e il 59,1 di OpenAl-o1-mini.
BFCL: QwQ-32B ha ottenuto un punteggio di 66,4, mentre DeepSeek-R1-6718 ha ottenuto un punteggio di 62,8, dimostrando un vantaggio rispetto ai modelli distillati e al 49,3 di OpenAl-o1-mini.

L’approccio del team di Qwen prevedeva un checkpoint di avvio a freddo e un processo di RL in più fasi guidato da ricompense basate sui risultati. La fase iniziale si è concentrata sulla scalabilità dell’RL per compiti matematici e di codifica, utilizzando verificatori di precisione e server di esecuzione del codice. La seconda fase si è estesa alle capacità generali, incorporando ricompense da modelli di ricompensa generali e verificatori basati su regole.

“Abbiamo scoperto che questa fase di addestramento RL con una piccola quantità di passi può aumentare le prestazioni di altre capacità generali, come il seguire le istruzioni, l’allineamento con le preferenze umane e le prestazioni dell’agente, senza un calo significativo delle prestazioni in matematica e codifica”, ha spiegato il team.

QwQ-32B è aperto e disponibile su Hugging Face e ModelScope con licenza Apache 2.0 ed è accessibile anche tramite Qwen Chat. Il team di Qwen ritiene che questo sia un primo passo verso la scalabilità dell’RL per migliorare le capacità di ragionamento e intende esplorare ulteriormente l’integrazione degli agenti con l’RL per il ragionamento a lungo termine.

“Mentre lavoriamo allo sviluppo della prossima generazione di Qwen, siamo fiduciosi che la combinazione di modelli di base più solidi con l’RL alimentato da risorse computazionali scalabili ci porterà più vicino al raggiungimento dell’Intelligenza Generale Artificiale (AGI)”, ha dichiarato il team.

Leggi di più su www.artificialintelligence-news.com