I leader aziendali alle prese con i costi elevati dell’implementazione di modelli di IA potrebbero trovare una tregua grazie a una nuova architettura.
Sebbene le capacità dell’IA generativa siano interessanti, i loro immensi requisiti computazionali per l’addestramento e l’inferenza comportano spese proibitive e crescenti preoccupazioni ambientali. Al centro di questa inefficienza c’è il “collo di bottiglia fondamentale” dei modelli, ovvero un processo autoregressivo che genera testo in modo sequenziale, token per token.
Per le aziende che elaborano grandi flussi di dati, dalle reti IoT ai mercati finanziari, questa limitazione rende la generazione di analisi a lungo termine lenta ed economicamente impegnativa. Tuttavia, una nuova ricerca di Tencent AI e della Tsinghua University propone un’alternativa.
Un nuovo approccio all’efficienza dell’IA
La ricerca introduce i modelli linguistici autoregressivi continui (CALM). Questo metodo rielabora il processo di generazione per prevedere un vettore continuo anziché un token discreto.
Un autoencoder ad alta fedeltà “comprime un gruppo di K token in un singolo vettore continuo”, che ha una larghezza di banda semantica molto più elevata.
Invece di elaborare qualcosa come “il”, “gatto”, “seduto” in tre passaggi, il modello li comprime in uno solo. Questo design “riduce direttamente il numero di passaggi generativi”, riducendo il carico computazionale.
I risultati sperimentali dimostrano un miglior compromesso tra prestazioni e calcolo. Un modello CALM AI che raggruppa quattro token ha fornito prestazioni “paragonabili alle linee di base discrete e forti, ma a un costo computazionale significativamente inferiore” per un’azienda.
Un modello CALM, ad esempio, ha richiesto il 44% in meno di FLOP di addestramento e il 34% in meno di FLOP di inferenza rispetto a un Transformer di base con capacità simili. Ciò indica un risparmio sia sulla spesa iniziale di capitale per la formazione sia sulla spesa operativa ricorrente per l’inferenza.
Ricostruire il kit di strumenti per il dominio continuo
Il passaggio da un vocabolario finito e discreto a uno spazio vettoriale infinito e continuo rompe il toolkit standard di LLM. I ricercatori hanno dovuto sviluppare un “quadro completo privo di verosimiglianza” per rendere fattibile il nuovo modello.
Per l’addestramento, il modello non può utilizzare un livello softmax standard o la stima della massima verosimiglianza. Per risolvere questo problema, il team ha utilizzato un obiettivo “senza verosimiglianza” con un Trasformatore di Energia, che premia il modello per le previsioni accurate senza calcolare probabilità esplicite.
Questo nuovo metodo di formazione ha richiesto anche una nuova metrica di valutazione. I benchmark standard come la Perplexity sono inapplicabili perché si basano sulle stesse probabilità che il modello non calcola più.
Il team ha proposto BrierLM, una nuova metrica basata sul punteggio di Brier che può essere stimato esclusivamente dai campioni del modello. La convalida ha confermato che BrierLM è un’alternativa affidabile, mostrando una “correlazione di rango di Spearman di -0,991” con le metriche di perdita tradizionali.
Infine, il framework ripristina la generazione controllata, una caratteristica fondamentale per l’uso aziendale. Il campionamento standard della temperatura è impossibile senza una distribuzione di probabilità. Il documento introduce un nuovo “algoritmo di campionamento senza verosimiglianza”, che include un metodo pratico di approssimazione dei lotti, per gestire il compromesso tra l’accuratezza dell’output e la diversità.
Ridurre i costi dell’IA aziendale
Questa ricerca offre uno sguardo a un futuro in cui l’IA generativa non è definita solo da un numero sempre maggiore di parametri, ma anche dall’efficienza architettonica.
L’attuale percorso di scalabilità dei modelli si scontra con un muro di rendimenti decrescenti e costi crescenti. Il framework CALM stabilisce un “nuovo asse di progettazione per la scalabilità dei LLM: aumentare la larghezza di banda semantica di ogni fase generativa”.
Pur trattandosi di un framework di ricerca e non di un prodotto pronto all’uso, indica un percorso potente e scalabile verso modelli linguistici ultra-efficienti. Quando valutano le roadmap dei fornitori, i leader tecnologici dovrebbero guardare oltre le dimensioni del modello e iniziare a chiedersi quale sia l’efficienza architettonica.
La capacità di ridurre i FLOP per token generato diventerà un vantaggio competitivo determinante, consentendo all’IA di essere implementata in modo più economico e sostenibile in tutta l’azienda per ridurre i costi, dal data center alle applicazioni edge che utilizzano i dati.



