ai marketing italia

la prima agenzia dedicata a far crescere la tua pmi con l'intelligenza artificiale

Alibaba Marco-o1: Far progredire le capacità di ragionamento degli LLM

 

Alibaba ha annunciato Marco-o1, un modello linguistico di grandi dimensioni (LLM) progettato per affrontare compiti di risoluzione di problemi sia convenzionali che aperti.

Marco-o1, realizzato dal team MarcoPolo di Alibaba, rappresenta un altro passo avanti nella capacità dell’IA di gestire sfide di ragionamento complesse, in particolare nei settori della matematica, della fisica, del coding e in aree in cui possono mancare standard chiari.

Basandosi sui progressi di OpenAI nel campo del ragionamento con il suo modello o1, Marco-o1 si distingue per l’integrazione di diverse tecniche avanzate, tra cui il Chain-of-Thought (CoT) fine-tuning, il Monte Carlo Tree Search (MCTS) e nuovi meccanismi di riflessione. Questi componenti lavorano di concerto per migliorare le capacità di risoluzione dei problemi del modello in vari ambiti.

Il team di sviluppo ha implementato una strategia di fine-tuning completa utilizzando diversi dataset, tra cui una versione filtrata del dataset Open-O1 CoT, un dataset sintetico Marco-o1 CoT e un dataset specializzato in istruzioni Marco. In totale, il corpus di addestramento comprende oltre 60.000 campioni attentamente curati.

Il modello ha ottenuto risultati particolarmente impressionanti nelle applicazioni multilingue. Nei test, Marco-o1 ha ottenuto notevoli miglioramenti di accuratezza del 6,17% sul dataset MGSM inglese e del 5,60% sulla sua controparte cinese. Il modello ha dimostrato una particolare forza nei compiti di traduzione, soprattutto quando gestisce espressioni colloquiali e sfumature culturali.

Una delle caratteristiche più innovative del modello è l’implementazione di diverse granularità di azione all’interno del framework MCTS. Questo approccio permette al modello di esplorare percorsi di ragionamento a diversi livelli di dettaglio, da passi ampi a “mini-passi” più precisi di 32 o 64 token. Il team ha anche introdotto un meccanismo di riflessione che spinge il modello ad autovalutarsi e a riconsiderare il proprio ragionamento, migliorando l’accuratezza in scenari di risoluzione di problemi complessi.

L’integrazione dell’MCTS si è dimostrata particolarmente efficace: tutte le versioni potenziate dell’MCTS del modello hanno mostrato miglioramenti significativi rispetto alla versione base di Marco-o1-CoT. Gli esperimenti condotti dal team con diverse granularità di azioni hanno rivelato schemi interessanti, anche se si sottolinea che la determinazione della strategia ottimale richiede ulteriori ricerche e modelli di ricompensa più precisi.

Benchmark comparison of the latest Marco-o1 LLM model with MCTS integration to previous AI models and variations.
(Credit: MarcoPolo Team, AI Business, Alibaba International Digital Commerce)

Il team di sviluppo è stato trasparente riguardo agli attuali limiti del modello, riconoscendo che, sebbene Marco-o1 presenti forti caratteristiche di ragionamento, non è ancora un modello “o1” pienamente realizzato. Sottolineano che questa versione rappresenta un impegno continuo per il miglioramento piuttosto che un prodotto finito.

In prospettiva, il team di Alibaba ha annunciato l’intenzione di incorporare modelli di ricompensa, tra cui Outcome Reward Modeling (ORM) e Process Reward Modeling (PRM), per migliorare le capacità decisionali di Marco-o1. Si stanno inoltre esplorando tecniche di apprendimento rinforzato per affinare ulteriormente le capacità di risoluzione dei problemi del modello.

Il modello Marco-o1 e i set di dati associati sono stati messi a disposizione della comunità di ricerca attraverso il repository GitHub di Alibaba, completi di documentazione completa e guide all’implementazione. Il rilascio include istruzioni per l’installazione e script di esempio sia per l’utilizzo diretto del modello che per l’implementazione tramite FastAPI.

Leggi di più su www.artificialintelligence-news.com

altre news