La scoperta dell’apprendimento avversivo consente la sicurezza dell’intelligenza artificiale in tempo reale

La capacità di eseguire l’apprendimento avversario per la sicurezza dell’intelligenza artificiale in tempo reale offre un vantaggio decisivo rispetto ai meccanismi di difesa statici.

L’emergere di attacchi guidati dall’intelligenza artificiale – che utilizzano capacità di apprendimento per rinforzo (RL) e Large Language Model (LLM) – ha creato una classe di “vibe hacking” e minacce adattive che mutano più velocemente di quanto i team umani possano rispondere. Questo rappresenta un rischio operativo e di governance per i leader aziendali che la politica da sola non può mitigare.

Gli aggressori ora utilizzano ragionamenti in più fasi e la generazione automatica di codice per aggirare le difese consolidate. Di conseguenza, il settore sta osservando una necessaria migrazione verso la “difesa autonoma” (ossia sistemi in grado di apprendere, anticipare e rispondere in modo intelligente senza l’intervento umano)

La transizione verso questi sofisticati modelli di difesa, tuttavia, ha storicamente incontrato un duro limite operativo: la latenza.

L’applicazione dell’apprendimento avversario, in cui i modelli di minaccia e di difesa vengono addestrati continuamente l’uno contro l’altro, offre un metodo per contrastare le minacce di sicurezza dell’intelligenza artificiale. Tuttavia, l’implementazione delle necessarie architetture basate su trasformatori in un ambiente di produzione in tempo reale crea un collo di bottiglia.

Abe Starosta, Principal Applied Research Manager di Microsoft NEXT.ai, ha dichiarato: “L’apprendimento avversivo funziona in produzione solo quando latenza, throughput e precisione si muovono insieme.

I costi di calcolo associati all’esecuzione di questi modelli densi in precedenza costringevano i leader a scegliere tra il rilevamento ad alta precisione (che è lento) e l’euristica ad alta velocità (che è meno accurata).

La collaborazione ingegneristica tra Microsoft e NVIDIA mostra come l’accelerazione hardware e l’ottimizzazione a livello di kernel eliminino questa barriera, rendendo la difesa avversaria in tempo reale fattibile su scala aziendale.

Per rendere operativi i modelli di trasformatori per il traffico in tempo reale, i team di ingegneri hanno dovuto affrontare i limiti intrinseci dell’inferenza basata su CPU. Le unità di elaborazione standard faticano a gestire il volume e la velocità dei carichi di lavoro di produzione quando vengono caricate di reti neurali complesse.

Nei test di base condotti dai team di ricerca, una configurazione basata sulla CPU ha prodotto una latenza end-to-end di 1239,67 ms con un throughput di appena 0,81req/s. Per un istituto finanziario o una piattaforma di e-commerce globale, un ritardo di un secondo per ogni richiesta è insostenibile dal punto di vista operativo.

Passando a un’architettura accelerata dalle GPU (in particolare utilizzando le unità NVIDIA H100), la latenza di base è scesa a 17,8ms. I soli aggiornamenti hardware, tuttavia, si sono rivelati insufficienti per soddisfare i severi requisiti della sicurezza dell’intelligenza artificiale in tempo reale.

Grazie a un’ulteriore ottimizzazione del motore di inferenza e dei processi di tokenizzazione, i team hanno raggiunto una latenza finale end-to-end di 7,67 ms, con un aumento delle prestazioni di 160 volte rispetto alla CPU di riferimento. Questa riduzione porta il sistema ben al di sotto delle soglie di accettabilità per l’analisi del traffico in linea, consentendo l’implementazione di modelli di rilevamento con un’accuratezza superiore al 95% nei benchmark di apprendimento avversario.

Un ostacolo operativo identificato nel corso di questo progetto offre spunti preziosi ai CTO che si occupano dell’integrazione dell’intelligenza artificiale. Mentre il modello di classificazione in sé è pesante dal punto di vista computazionale, la pipeline di pre-elaborazione dei dati – in particolare la tokenizzazione – è emersa come un secondo collo di bottiglia.

Le tecniche di tokenizzazione standard, che spesso si basano sulla segmentazione degli spazi bianchi, sono state progettate per l’elaborazione del linguaggio naturale (ad esempio articoli e documentazione). Si rivelano inadeguate per i dati di cybersecurity, che sono costituiti da stringhe di richiesta densamente impacchettate e da payload generati dalla macchina che non presentano interruzioni naturali.

Per risolvere questo problema, i team di ingegneri hanno sviluppato un tokenizzatore specifico per il dominio. Integrando punti di segmentazione specifici per la sicurezza, adattati alle sfumature strutturali dei dati macchina, hanno permesso un parallelismo a grana più fine. Questo approccio su misura per la sicurezza ha permesso di ridurre di 3,5 volte la latenza di tokenizzazione, evidenziando che i componenti di IA già pronti per l’uso spesso richiedono una reingegnerizzazione specifica per il dominio per funzionare efficacemente in ambienti di nicchia.

Per ottenere questi risultati è stato necessario uno stack di inferenza coeso piuttosto che aggiornamenti isolati. L’architettura ha utilizzato NVIDIA Dynamo e Triton Inference Server per il servizio, insieme a un’implementazione TensorRT del classificatore di minacce di Microsoft.

Il processo di ottimizzazione ha comportato la fusione di operazioni chiave – come la normalizzazione, l’incorporazione e le funzioni di attivazione – in singoli kernel CUDA personalizzati. Questa fusione riduce al minimo il traffico di memoria e l’overhead di lancio, che sono spesso i killer silenziosi delle prestazioni nelle applicazioni di sicurezza o di trading ad alta frequenza. TensorRT ha fuso automaticamente le operazioni di normalizzazione nei kernel precedenti, mentre gli sviluppatori hanno creato kernel personalizzati per l’attenzione a finestra scorrevole.

Il risultato di queste ottimizzazioni specifiche dell’inferenza è stata una riduzione della latenza del forward-pass da 9,45 ms a 3,39 ms, un aumento di velocità di 2,8 volte che ha contribuito alla maggior parte della riduzione della latenza osservata nelle metriche finali.

Rachel Allen, Cybersecurity Manager di NVIDIA, ha spiegato: “Mettere in sicurezza le imprese significa far fronte al volume e alla velocità dei dati di cybersecurity e adattarsi alla velocità di innovazione degli avversari”.

“I modelli difensivi hanno bisogno di una latenza bassissima per essere eseguiti ad alta velocità e della capacità di adattarsi alle minacce più recenti. La combinazione dell’apprendimento avversario con i modelli di rilevamento basati su trasformatori accelerati di NVIDIA TensorRT fa proprio questo”

Il successo in questo caso indica un requisito più ampio per le infrastrutture aziendali. Poiché gli attori delle minacce sfruttano l’intelligenza artificiale per mutare gli attacchi in tempo reale, i meccanismi di sicurezza devono avere la capacità di calcolo necessaria per eseguire modelli di inferenza complessi senza introdurre latenza.

Affidarsi al calcolo della CPU per il rilevamento avanzato delle minacce sta diventando un problema. Proprio come il rendering grafico si è spostato sulle GPU, l’inferenza di sicurezza in tempo reale richiede hardware specializzato per mantenere un throughput >130 req/s e garantire al contempo una copertura solida.

Inoltre, i modelli generici di intelligenza artificiale e i tokenizzatori spesso falliscono su dati specializzati. Il “vibe hacking” e i payload complessi delle minacce moderne richiedono modelli addestrati specificamente su schemi malevoli e segmentazioni di input che riflettono la realtà dei dati macchina.

In prospettiva, la tabella di marcia per la sicurezza del futuro prevede l’addestramento di modelli e architetture specifici per la robustezza avversaria, utilizzando potenzialmente tecniche come la quantificazione per migliorare ulteriormente la velocità.

Addestrando continuamente i modelli di minaccia e di difesa in tandem, le organizzazioni possono costruire una base per una protezione AI in tempo reale che si adatti alla complessità delle minacce alla sicurezza in continua evoluzione. L’innovazione dell’apprendimento avverso dimostra che la tecnologia per raggiungere questo obiettivo – bilanciando latenza, throughput e precisione – è in grado di essere implementata oggi.

Leggi di più su www.artificialintelligence-news.com