DeepSeek ha presentato i modelli di prima generazione DeepSeek-R1 e DeepSeek-R1-Zero, progettati per affrontare compiti di ragionamento complessi.
DeepSeek-R1-Zero viene addestrato esclusivamente attraverso l’apprendimento per rinforzo (RL) su larga scala, senza ricorrere alla messa a punto supervisionata (SFT) come fase preliminare. Secondo DeepSeek, questo approccio ha portato all’emergere naturale di “numerosi comportamenti di ragionamento potenti e interessanti”, tra cui l’autoverifica, la riflessione e la generazione di ampie catene di pensiero (CoT).
“In particolare, [DeepSeek-R1-Zero] è la prima ricerca aperta a convalidare che le capacità di ragionamento dei LLM possono essere incentivate esclusivamente attraverso la RL, senza la necessità di SFT”, hanno spiegato i ricercatori di DeepSeek. Questa pietra miliare non solo sottolinea le basi innovative del modello, ma apre anche la strada a progressi incentrati sulla RL nell’IA ragionante.
Tuttavia, le capacità di DeepSeek-R1-Zero presentano alcune limitazioni. Tra i problemi principali ci sono “la ripetizione infinita, la scarsa leggibilità e la mescolanza di linguaggi”, che potrebbero rappresentare un ostacolo significativo nelle applicazioni reali. Per ovviare a queste carenze, DeepSeek ha sviluppato il suo modello di punta: DeepSeek-R1.
Presentazione di DeepSeek-R1
DeepSeek-R1 si basa sul suo predecessore incorporando dati a freddo prima dell’addestramento RL. Questa fase aggiuntiva di pre-addestramento migliora le capacità di ragionamento del modello e risolve molte delle limitazioni riscontrate in DeepSeek-R1-Zero.
In particolare, DeepSeek-R1 raggiunge prestazioni paragonabili a quelle dell’apprezzato sistema o1 di OpenAI nei compiti di matematica, codifica e ragionamento generale, consolidando il suo ruolo di concorrente leader.
DeepSeek ha scelto di rendere open-source sia DeepSeek-R1-Zero che DeepSeek-R1 insieme a sei modelli più piccoli. Tra questi, DeepSeek-R1-Distill-Qwen-32B ha dimostrato risultati eccezionali, superando persino o1-mini di OpenAI in diversi benchmark.
- MATH-500 (Pass@1): DeepSeek-R1 ha ottenuto il 97,3%, superando OpenAI (96,4%) e altri importanti concorrenti.
- LiveCodeBench (Pass@1-COT): la versione distillata DeepSeek-R1-Distill-Qwen-32B ha ottenuto un punteggio del 57,2%, una prestazione di rilievo tra i modelli più piccoli.
- AIME 2024 (Pass@1): DeepSeek-R1 ha ottenuto il 79,8%, stabilendo uno standard impressionante nella risoluzione di problemi matematici.
Una pipeline a beneficio dell’industria in generale
DeepSeek ha condiviso i dettagli della sua rigorosa pipeline per lo sviluppo di modelli di ragionamento, che integra una combinazione di fine-tuning supervisionato e apprendimento per rinforzo.
Secondo l’azienda, il processo prevede due fasi SFT per stabilire le capacità fondamentali di ragionamento e non, e due fasi RL per scoprire modelli di ragionamento avanzati e allineare queste capacità alle preferenze umane.
“Crediamo che la pipeline porterà benefici all’industria creando modelli migliori”, ha dichiarato DeepSeek, alludendo al potenziale della sua metodologia di ispirare futuri progressi nel settore dell’IA.
Uno dei risultati più significativi del loro approccio incentrato su RL è la capacità di DeepSeek-R1-Zero di eseguire intricati modelli di ragionamento senza precedenti istruzioni umane, una novità assoluta per la comunità di ricerca open-source sull’IA.
Importanza della distillazione
I ricercatori di DeepSeek hanno anche sottolineato l’importanza della distillazione, il processo di trasferimento delle capacità di ragionamento da modelli più grandi a modelli più piccoli e più efficienti, una strategia che ha permesso di ottenere guadagni di prestazioni anche per le configurazioni più piccole.
Le iterazioni più piccole di DeepSeek-R1, come le versioni da 1,5B, 7B e 14B, sono state in grado di reggere il confronto con applicazioni di nicchia. I modelli distillati possono superare i risultati ottenuti con l’addestramento RL su modelli di dimensioni comparabili.
🔥 Bonus: Modelli distillati open-source!
🔬 Distillati da DeepSeek-R1, 6 piccoli modelli completamente open-sourced
📏 Modelli 32B e 70B alla pari con OpenAI-o1-mini
🤝 Dare forza alla comunità open-source🌍 Spingendo i confini della **open AI**!
🐋 2/n pic.twitter.com/tfXLM2xtZZ
– DeepSeek (@deepseek_ai) 20 gennaio 2025
Per i ricercatori, questi modelli sono disponibili in configurazioni che vanno da 1,5 miliardi a 70 miliardi di parametri, supportando le architetture Qwen2.5 e Llama3. Questa flessibilità consente un utilizzo versatile in un’ampia gamma di attività, dalla codifica alla comprensione del linguaggio naturale.
DeepSeek ha adottato la Licenza MIT per il suo repository e i suoi pesi, estendendo i permessi per l’uso commerciale e le modifiche a valle. Sono consentiti lavori derivati, come l’utilizzo di DeepSeek-R1 per addestrare altri modelli linguistici di grandi dimensioni (LLM). Tuttavia, gli utenti di modelli specifici devono rispettare le licenze dei modelli di base originali, come le licenze Apache 2.0 e Llama3.



