Meta e Oracle scelgono NVIDIA Spectrum-X per i data center di intelligenza artificiale

Meta e Oracle stanno aggiornando i loro data center AI con gli switch di rete Ethernet Spectrum-X di NVIDIA, una tecnologia costruita per gestire le crescenti esigenze dei sistemi AI su larga scala. Entrambe le aziende stanno adottando Spectrum-X come parte di un framework di networking aperto progettato per migliorare l’efficienza dell’addestramento dell’IA e accelerare l’implementazione su cluster di calcolo massicci.

Jensen Huang, fondatore e CEO di NVIDIA, ha dichiarato che i modelli da un trilione di parametri stanno trasformando i data center in “fabbriche di AI su scala giga”, aggiungendo che Spectrum-X agisce come “sistema nervoso” collegando milioni di GPU per addestrare i modelli più grandi mai costruiti.

Oracle intende utilizzare Spectrum-X Ethernet con la sua architettura Vera Rubin per costruire fabbriche di AI su larga scala. Mahesh Thiagarajan, vicepresidente esecutivo di Oracle Cloud Infrastructure, ha dichiarato che la nuova configurazione consentirà all’azienda di collegare milioni di GPU in modo più efficiente, aiutando i clienti ad addestrare e distribuire nuovi modelli di IA più velocemente.

Meta, nel frattempo, sta espandendo la sua infrastruttura AI integrando gli switch Ethernet Spectrum-X nel Facebook Open Switching System (FBOSS), la sua piattaforma interna per la gestione degli switch di rete su scala. Secondo Gaya Nagarajan, vicepresidente dell’ingegneria di rete di Meta, la rete di prossima generazione dell’azienda deve essere aperta ed efficiente per supportare modelli di IA sempre più grandi e fornire servizi a miliardi di utenti.

Costruire sistemi di intelligenza artificiale flessibili

Secondo Joe DeLaere, che dirige l’Accelerated Computing Solution Portfolio for Data Centre di NVIDIA, la flessibilità è fondamentale man mano che i data center diventano più complessi. Ha spiegato che il sistema MGX di NVIDIA offre un design modulare che permette ai partner di combinare diverse CPU, GPU, storage e componenti di rete a seconda delle necessità.

Il sistema promuove inoltre l’interoperabilità, consentendo alle organizzazioni di utilizzare lo stesso progetto su più generazioni di hardware. “Offre flessibilità, un time to market più rapido e la possibilità di essere pronti per il futuro”, ha dichiarato DeLaere ai media.

Con l’aumento delle dimensioni dei modelli di AI, l’efficienza energetica è diventata una sfida centrale per i data center. DeLaere ha dichiarato che NVIDIA sta lavorando “dal chip alla rete” per migliorare l’uso dell’energia e la scalabilità, collaborando strettamente con i fornitori di energia e raffreddamento per massimizzare le prestazioni per watt.

Un esempio è il passaggio all’alimentazione a 800 volt in corrente continua, che riduce la perdita di calore e migliora l’efficienza. L’azienda sta inoltre introducendo una tecnologia di power-smoothing per ridurre i picchi sulla rete elettrica, un approccio che può ridurre il fabbisogno massimo di energia fino al 30%, consentendo una maggiore capacità di calcolo con lo stesso ingombro.

Scalare verso l’alto, verso il basso e verso l’esterno

Il sistema MGX di NVIDIA svolge un ruolo importante anche nelle modalità di scalabilità dei data center. Gilad Shainer, vicepresidente senior del settore networking dell’azienda, ha dichiarato ai media che i rack MGX ospitano sia componenti di calcolo che di switching, supportando NVLink per la connettività scale-up e Spectrum-X Ethernet per la crescita scale-out.

Ha aggiunto che MGX è in grado di collegare più data center AI come un sistema unificato – ciò di cui aziende come Meta hanno bisogno per supportare operazioni di formazione AI massicciamente distribuite. A seconda della distanza, possono collegare i siti tramite fibra spenta o switch aggiuntivi basati su MGX, consentendo connessioni ad alta velocità tra le regioni.

L’adozione di Spectrum-X da parte di Meta riflette la crescente importanza dell’open networking. Shainer ha dichiarato che l’azienda utilizzerà FBOSS come sistema operativo di rete, ma ha fatto notare che Spectrum-X ne supporta molti altri, tra cui Cumulus, SONiC e NOS di Cisco grazie a delle partnership. Questa flessibilità permette agli hyperscaler e alle aziende di standardizzare la propria infrastruttura utilizzando i sistemi che meglio si adattano ai loro ambienti.

Espansione dell’ecosistema AI

NVIDIA vede Spectrum-X come un modo per rendere l’infrastruttura AI più efficiente e accessibile su diverse scale. Shainer ha dichiarato che la piattaforma Ethernet è stata progettata specificamente per i carichi di lavoro dell’intelligenza artificiale, come la formazione e l’inferenza, offrendo una larghezza di banda effettiva fino al 95% e superando le prestazioni dell’Ethernet tradizionale con un ampio margine.

Ha aggiunto che le partnership di NVIDIA con aziende come Cisco, xAI, Meta e Oracle Cloud Infrastructure stanno contribuendo a portare Spectrum-X in una gamma più ampia di ambienti, dagli hyperscaler alle aziende.

Prepararsi per Vera Rubin e oltre

DeLaere ha dichiarato che l’imminente architettura Vera Rubin di NVIDIA dovrebbe essere disponibile in commercio nella seconda metà del 2026, mentre il prodotto Rubin CPX arriverà entro la fine dell’anno. Entrambi lavoreranno insieme ai sistemi di rete Spectrum-X e MGX per supportare la prossima generazione di fabbriche AI.

Ha inoltre chiarito che Spectrum-X e XGS condividono lo stesso hardware di base ma utilizzano algoritmi diversi per le varie distanze: Spectrum-X per l’interno dei data center e XGS per la comunicazione tra data center. Questo approccio riduce al minimo la latenza e consente a più siti di operare insieme come un unico grande supercomputer di intelligenza artificiale.

Collaborazione nella catena elettrica

Per supportare la transizione alla corrente continua a 800 volt, NVIDIA sta collaborando con i partner dal livello del chip alla rete. L’azienda sta collaborando con Onsemi e Infineon per i componenti di alimentazione, con Delta, Flex e Lite-On a livello di rack e con Schneider Electric e Siemens per i progetti dei data center. In occasione dell’OCP Summit verrà pubblicato un white paper tecnico che illustra questo approccio.

DeLaere ha descritto questo approccio come una “progettazione olistica, dal silicio alla fornitura di energia”, che garantisce che tutti i sistemi lavorino insieme senza problemi negli ambienti AI ad alta densità in cui operano aziende come Meta e Oracle.

Vantaggi in termini di prestazioni per gli hyperscaler

Spectrum-X Ethernet è stato costruito appositamente per l’elaborazione distribuita e i carichi di lavoro dell’IA. Shainer ha dichiarato che offre un routing adattivo e un controllo della congestione basato sulla telemetria per eliminare gli hotspot della rete e garantire prestazioni stabili. Queste caratteristiche consentono una maggiore velocità di formazione e di inferenza e permettono a più carichi di lavoro di essere eseguiti simultaneamente senza interferenze.

Ha aggiunto che Spectrum-X è l’unica tecnologia Ethernet che ha dimostrato di poter scalare a livelli estremi, aiutando le organizzazioni a ottenere le migliori prestazioni e il miglior ritorno sugli investimenti nelle GPU. Per gli hyperscaler come Meta, questa scalabilità aiuta a gestire le crescenti richieste di formazione AI e a mantenere efficiente l’infrastruttura.

Hardware e software che lavorano insieme

Sebbene NVIDIA si concentri spesso sull’hardware, DeLaere ha dichiarato che l’ottimizzazione del software è altrettanto importante. L’azienda continua a migliorare le prestazioni attraverso la co-progettazione – allineando lo sviluppo di hardware e software per massimizzare l’efficienza dei sistemi di IA.

NVIDIA sta investendo in kernel FP4, framework come Dynamo e TensorRT-LLM e algoritmi come la decodifica speculativa per migliorare il throughput e le prestazioni dei modelli di intelligenza artificiale. Questi aggiornamenti, ha detto, garantiscono che sistemi come Blackwell continuino a fornire risultati migliori nel tempo per gli hyperscaler come Meta che si affidano a prestazioni di AI costanti.

Networking per l’era dei trilioni di parametri

La piattaforma Spectrum-X – che comprende switch Ethernet e SuperNIC – è il primo sistema Ethernet di NVIDIA costruito appositamente per i carichi di lavoro AI. È stata progettata per collegare in modo efficiente milioni di GPU e mantenere prestazioni prevedibili in tutti i data center AI.

Grazie alla tecnologia di controllo della congestione che consente di raggiungere un throughput dei dati fino al 95%, Spectrum-X segna un importante salto di qualità rispetto all’Ethernet standard, che in genere raggiunge solo il 60% circa a causa delle collisioni di flusso. La sua tecnologia XGS supporta anche i collegamenti a lunga distanza tra i data center AI, collegando strutture di diverse regioni in “super fabbriche AI” unificate

Unendo l’intero stack di NVIDIA – GPU, CPU, NVLink e software – Spectrum-X offre le prestazioni costanti necessarie per supportare modelli da un trilione di parametri e la prossima ondata di carichi di lavoro generativi dell’intelligenza artificiale.

Leggi di più su www.artificialintelligence-news.com