Un nuovo documento di un ricercatore Samsung AI spiega come una piccola rete possa battere i grandi modelli linguistici (LLM) in ragionamenti complessi.
Nella corsa alla supremazia dell’intelligenza artificiale, il mantra del settore è stato spesso “più grande è meglio” I giganti tecnologici hanno investito miliardi nella creazione di modelli sempre più grandi, ma secondo Alexia Jolicoeur-Martineau di Samsung SAIL Montréal, con il Tiny Recursive Model (TRM) è possibile percorrere una strada radicalmente diversa e più efficiente.
Utilizzando un modello con soli 7 milioni di parametri, meno dello 0,01% delle dimensioni dei principali LLM, il TRM raggiunge nuovi risultati all’avanguardia su benchmark notoriamente difficili come il test di intelligenza ARC-AGI. Il lavoro di Samsung sfida l’ipotesi prevalente che la scala pura sia l’unico modo per far progredire le capacità dei modelli di intelligenza artificiale, offrendo un’alternativa più sostenibile ed efficiente dal punto di vista dei parametri.
Superare i limiti della scala
Sebbene i LLM abbiano dimostrato un’incredibile abilità nel generare testi simili a quelli umani, la loro capacità di eseguire ragionamenti complessi e in più fasi può essere fragile. Poiché generano risposte token per token, un singolo errore nelle prime fasi del processo può far deragliare l’intera soluzione, portando a una risposta finale non valida.
Per ovviare a questo problema sono state sviluppate tecniche come la Chain-of-Thought, in cui un modello “pensa ad alta voce” per risolvere un problema. Tuttavia, questi metodi sono computazionalmente costosi, spesso richiedono grandi quantità di dati di ragionamento di alta qualità che potrebbero non essere disponibili e possono comunque produrre una logica errata. Anche con questi miglioramenti, gli LLM faticano a risolvere alcuni enigmi in cui è necessaria una perfetta esecuzione logica.
Il lavoro di Samsung si basa su un recente modello di intelligenza artificiale noto come Hierarchical Reasoning Model (HRM). L’HRM ha introdotto un metodo innovativo che utilizza due piccole reti neurali che lavorano ricorsivamente su un problema a frequenze diverse per perfezionare una risposta. Il metodo era molto promettente ma complicato, in quanto si basava su argomentazioni biologiche incerte e su complessi teoremi a punto fisso di cui non era garantita l’applicabilità.
Invece delle due reti dell’HRM, il TRM utilizza un’unica, piccola rete che migliora ricorsivamente sia il suo “ragionamento” interno che la “risposta” proposta.
Il modello riceve la domanda, un’ipotesi iniziale di risposta e una caratteristica di ragionamento latente. Prima esegue diversi cicli per affinare il suo ragionamento latente sulla base di tutti e tre gli input. Poi, utilizzando questo ragionamento migliorato, aggiorna la sua previsione per la risposta finale. L’intero processo può essere ripetuto fino a 16 volte, consentendo al modello di correggere progressivamente i propri errori in modo estremamente efficiente dal punto di vista dei parametri.
Controintuitivamente, la ricerca ha scoperto che una piccola rete con soli due strati ha ottenuto una generalizzazione di gran lunga migliore rispetto a una versione a quattro strati. Questa riduzione delle dimensioni sembra impedire al modello di adattarsi in modo eccessivo, un problema comune quando ci si allena su set di dati più piccoli e specializzati.
Inoltre, il TRM elimina le complesse giustificazioni matematiche utilizzate dal suo predecessore. Il modello HRM originale richiedeva l’assunzione che le sue funzioni convergessero a un punto fisso per giustificare il suo metodo di addestramento. Il modello TRM lo aggira completamente, semplicemente eseguendo un back-propagation attraverso l’intero processo di ricorsione. Questa modifica da sola ha dato un enorme impulso alle prestazioni, migliorando l’accuratezza del benchmark Sudoku-Extreme dal 56,5% all’87,4% in uno studio di ablazione.
Il modello di Samsung supera i benchmark dell’intelligenza artificiale con meno risorse
I risultati parlano da soli. Sul dataset Sudoku-Extreme, che utilizza solo 1.000 esempi di addestramento, TRM raggiunge un’accuratezza di test dell’87,4%, un enorme balzo rispetto al 55% di HRM. Su Maze-Hard, un compito che prevede la ricerca di percorsi lunghi attraverso labirinti 30×30, TRM ottiene l’85,3% rispetto al 74,5% di HRM.
Soprattutto, TRM fa passi da gigante nell’Abstraction and Reasoning Corpus (ARC-AGI), un benchmark progettato per misurare la vera intelligenza fluida nell’IA. Con soli 7 milioni di parametri, TRM raggiunge un’accuratezza del 44,6% su ARC-AGI-1 e del 7,8% su ARC-AGI-2. Questo risultato supera HRM, che utilizzava un modello con 27 milioni di parametri, e supera persino molti dei più grandi LLM del mondo. Per fare un confronto, Gemini 2.5 Pro ha ottenuto solo il 4,9% su ARC-AGI-2.
Anche il processo di formazione del TRM è stato reso più efficiente. Un meccanismo adattivo chiamato ACT – che decide quando il modello ha migliorato a sufficienza una risposta e può passare a un nuovo campione di dati – è stato semplificato per eliminare la necessità di un secondo, costoso passaggio in avanti attraverso la rete durante ogni fase di formazione. Questa modifica è stata apportata senza grandi differenze nella generalizzazione finale.
Questa ricerca di Samsung presenta un argomento convincente contro l’attuale traiettoria di modelli di intelligenza artificiale in continua espansione. Dimostra che progettando architetture in grado di ragionare e autocorreggersi in modo iterativo, è possibile risolvere problemi estremamente difficili con una frazione minima delle risorse computazionali.



