Scalare l’inferenza dell’intelligenza artificiale con efficienza open-source

NVIDIA ha lanciato Dynamo, un software di inferenza open-source progettato per accelerare e scalare i modelli di ragionamento all’interno delle fabbriche di AI.

Gestire e coordinare in modo efficiente le richieste di inferenza dell’intelligenza artificiale su una flotta di GPU è un’impresa fondamentale per garantire che le fabbriche di intelligenza artificiale possano operare con un ottimo rapporto costo-efficacia e massimizzare la generazione di gettoni.

Man mano che il ragionamento dell’IA diventa sempre più diffuso, si prevede che ogni modello di IA generi decine di migliaia di token per ogni richiesta, rappresentando essenzialmente il suo processo di “pensiero”. Migliorare le prestazioni di inferenza e contemporaneamente ridurne il costo è quindi fondamentale per accelerare la crescita e aumentare le opportunità di guadagno per i fornitori di servizi.

Una nuova generazione di software di inferenza dell’intelligenza artificiale

NVIDIA Dynamo, che succede a NVIDIA Triton Inference Server, rappresenta una nuova generazione di software di inferenza dell’intelligenza artificiale specificamente progettato per massimizzare la generazione di ricavi token per le fabbriche di intelligenza artificiale che distribuiscono modelli di ragionamento dell’intelligenza artificiale.

Dynamo orchestra e accelera la comunicazione dell’inferenza su migliaia di GPU. Utilizza il servizio disaggregato, una tecnica che separa le fasi di elaborazione e generazione dei modelli linguistici di grandi dimensioni (LLM) su GPU distinte. Questo approccio permette di ottimizzare ogni fase in modo indipendente, soddisfacendo le sue specifiche esigenze di calcolo e garantendo il massimo utilizzo delle risorse della GPU.

“Le industrie di tutto il mondo stanno addestrando i modelli di intelligenza artificiale a pensare e ad apprendere in modi diversi, rendendoli sempre più sofisticati”, ha dichiarato Jensen Huang, fondatore e CEO di NVIDIA. “Per consentire un futuro di AI con ragionamento personalizzato, NVIDIA Dynamo aiuta a servire questi modelli su scala, consentendo di risparmiare sui costi e di aumentare l’efficienza delle fabbriche di AI”

Utilizzando lo stesso numero di GPU, Dynamo ha dimostrato di poter raddoppiare le prestazioni e i ricavi delle fabbriche di AI che servono modelli Llama sull’attuale piattaforma Hopper di NVIDIA. Inoltre, eseguendo il modello DeepSeek-R1 su un grande cluster di rack GB200 NVL72, le ottimizzazioni intelligenti dell’inferenza di NVIDIA Dynamo hanno dimostrato di aumentare il numero di token generati di oltre 30 volte per GPU.

Per ottenere questi miglioramenti nelle prestazioni di inferenza, NVIDIA Dynamo incorpora diverse funzionalità chiave progettate per aumentare il throughput e ridurre i costi operativi.

Dynamo può aggiungere, rimuovere e riallocare dinamicamente le GPU in tempo reale per adattarsi alle fluttuazioni dei volumi e dei tipi di richiesta. Il software è anche in grado di individuare, all’interno di cluster di grandi dimensioni, le GPU specifiche più adatte a ridurre al minimo i calcoli di risposta e a instradare in modo efficiente le query. Dynamo può anche scaricare i dati di inferenza su dispositivi di memoria e di archiviazione più economici, recuperandoli rapidamente quando necessario, riducendo così al minimo i costi complessivi di inferenza.

NVIDIA Dynamo viene rilasciato come progetto completamente open-source, offrendo un’ampia compatibilità con framework popolari come PyTorch, SGLang, NVIDIA TensorRT-LLM e vLLM. Questo approccio aperto supporta le imprese, le startup e i ricercatori nello sviluppo e nell’ottimizzazione di nuovi metodi per servire i modelli di intelligenza artificiale attraverso infrastrutture di inferenza disaggregate.

NVIDIA si aspetta che Dynamo acceleri l’adozione dell’inferenza dell’intelligenza artificiale in un’ampia gamma di organizzazioni, tra cui i principali cloud provider e innovatori dell’intelligenza artificiale come AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI e VAST.

NVIDIA Dynamo: Potenziamento dell’inferenza e dell’intelligenza artificiale agenziale

Un’innovazione fondamentale di NVIDIA Dynamo consiste nella sua capacità di mappare la conoscenza che i sistemi di inferenza conservano in memoria grazie alle richieste precedenti, nota come KV cache, su migliaia di GPU.

Il software instrada quindi in modo intelligente le nuove richieste di inferenza verso le GPU che possiedono la migliore corrispondenza di conoscenze, evitando di fatto costose ricomputazioni e liberando le altre GPU per gestire le nuove richieste in arrivo. Questo meccanismo di instradamento intelligente migliora significativamente l’efficienza e riduce la latenza.

“Per gestire centinaia di milioni di richieste al mese, ci affidiamo alle GPU e al software di inferenza di NVIDIA per ottenere le prestazioni, l’affidabilità e la scalabilità richieste dalla nostra azienda e dai nostri utenti”, ha dichiarato Denis Yarats, CTO di Perplexity AI.

“Non vediamo l’ora di sfruttare Dynamo, con le sue migliori capacità di servizio distribuito, per ottenere un’efficienza di servizio di inferenza ancora maggiore e soddisfare le richieste di calcolo dei nuovi modelli di ragionamento dell’intelligenza artificiale”

La piattaforma di AI Cohere sta già pianificando di sfruttare NVIDIA Dynamo per migliorare le capacità di AI agenziale della sua serie di modelli Command.

“La scalabilità di modelli di IA avanzati richiede una sofisticata pianificazione multi-GPU, una coordinazione senza soluzione di continuità e librerie di comunicazione a bassa latenza che trasferiscano i contesti di ragionamento senza soluzione di continuità attraverso la memoria e lo storage”, ha spiegato Saurabh Baji, SVP of engineering di Cohere.

“Ci aspettiamo che NVIDIA Dynamo ci aiuti a offrire un’esperienza d’uso eccellente ai nostri clienti aziendali”

Supporto per il servizio disaggregato

La piattaforma di inferenza NVIDIA Dynamo offre anche un solido supporto per il servizio disaggregato. Questa tecnica avanzata assegna le diverse fasi computazionali degli LLM – compresi i passaggi cruciali della comprensione della query dell’utente e della generazione della risposta più appropriata – a diverse GPU all’interno dell’infrastruttura.

Il servizio disaggregato è particolarmente adatto ai modelli di ragionamento, come la nuova famiglia di modelli NVIDIA Llama Nemotron, che impiega tecniche di inferenza avanzate per migliorare la comprensione del contesto e la generazione delle risposte. Consentendo a ogni fase di essere messa a punto e di disporre di risorse in modo indipendente, il servizio disaggregato migliora il throughput complessivo e offre tempi di risposta più rapidi agli utenti.

Together AI, un’azienda di spicco nel settore dell’accelerazione dell’intelligenza artificiale, sta cercando di integrare il suo motore di inferenza proprietario Together Inference Engine con NVIDIA Dynamo. Questa integrazione mira a consentire una scalabilità perfetta dei carichi di lavoro di inferenza su più nodi GPU. Inoltre, consentirà a Together AI di risolvere dinamicamente i colli di bottiglia del traffico che possono verificarsi in varie fasi della pipeline di modelli.

“Scalare i modelli di ragionamento in modo conveniente richiede nuove tecniche di inferenza avanzate, tra cui il servizio disaggregato e il routing context-aware”, ha dichiarato Ce Zhang, CTO di Together AI.

“L’apertura e la modularità di NVIDIA Dynamo ci permetteranno di inserire senza problemi i suoi componenti nel nostro motore per servire un maggior numero di richieste ottimizzando l’utilizzo delle risorse e massimizzando il nostro investimento nel computing accelerato. Siamo entusiasti di poter sfruttare le straordinarie capacità della piattaforma per offrire ai nostri utenti modelli di ragionamento open-source a costi contenuti”

Quattro innovazioni chiave di NVIDIA Dynamo

NVIDIA ha evidenziato quattro innovazioni chiave all’interno di Dynamo che contribuiscono a ridurre i costi di elaborazione delle inferenze e a migliorare l’esperienza complessiva degli utenti:

GPU Planner: Un sofisticato motore di pianificazione che aggiunge e rimuove dinamicamente le GPU in base alle fluttuazioni della domanda degli utenti. Questo garantisce un’allocazione ottimale delle risorse, evitando sia l’over-provisioning che l’under-provisioning della capacità delle GPU.
Router intelligente: Un router intelligente e consapevole di LLM che dirige le richieste di inferenza attraverso grandi flotte di GPU. La sua funzione principale è quella di ridurre al minimo le costose ricomputazioni su GPU di richieste ripetute o sovrapposte, liberando così preziose risorse di GPU per gestire in modo più efficiente le nuove richieste in arrivo.
Libreria di comunicazione a bassa latenza: Una libreria ottimizzata per l’inferenza, progettata per supportare lo stato dell’arte della comunicazione GPU-GPU. Astrae le complessità dello scambio di dati tra dispositivi eterogenei, accelerando in modo significativo la velocità di trasferimento dei dati.
Memory Manager: Un motore intelligente che gestisce lo scarico e il ricarico dei dati di inferenza da e verso dispositivi di memoria e archiviazione a basso costo. Questo processo è stato progettato per essere senza soluzione di continuità e per non avere alcun impatto negativo sull’esperienza dell’utente.

NVIDIA Dynamo sarà disponibile all’interno dei microservizi NIM e sarà supportato in una futura release della piattaforma software AI Enterprise dell’azienda.

Leggi di più su www.artificialintelligence-news.com