Esaminiamo la principale minaccia alla sicurezza dell’intelligenza artificiale

Gli esperti di sicurezza di JFrog hanno individuato una minaccia di “prompt hijacking” che sfrutta i punti deboli del modo in cui i sistemi di intelligenza artificiale parlano tra loro utilizzando il protocollo MCP (Model Context Protocol).

I leader aziendali vogliono rendere l’IA più utile utilizzando direttamente i dati e gli strumenti aziendali. Tuttavia, collegare l’IA in questo modo apre anche nuovi rischi per la sicurezza, non nell’IA stessa, ma nel modo in cui è connessa. Ciò significa che i CIO e i CISO devono pensare a un nuovo problema: proteggere il flusso di dati che alimenta l’IA, così come proteggono l’IA stessa.

Perché gli attacchi all’IA che prendono di mira protocolli come MCP sono così pericolosi

I modelli di intelligenza artificiale, indipendentemente dal fatto che si trovino su Google, Amazon o su dispositivi locali, hanno un problema di base: non sanno cosa sta succedendo in questo momento. Conoscono solo ciò su cui sono stati addestrati. Non sanno su quale codice stia lavorando un programmatore o cosa ci sia in un file di un computer.

Gli ingegneri di Anthropic hanno creato l’MCP per risolvere questo problema. L’MCP è un modo per collegare l’intelligenza artificiale al mondo reale, consentendole di utilizzare in modo sicuro i dati locali e i servizi online. È ciò che permette a un assistente come Claude di capire cosa significa quando indichi un pezzo di codice e gli chiedi di rielaborarlo.

Tuttavia, la ricerca di JFrog mostra che un certo modo di usare MCP ha una debolezza nel dirottamento del prompt che può trasformare questo strumento di AI da sogno in un problema di sicurezza da incubo.

Immaginiamo che un programmatore chieda a un assistente AI di consigliargli uno strumento Python standard per lavorare con le immagini. L’intelligenza artificiale dovrebbe suggerire Pillow, che è una scelta valida e popolare. Tuttavia, a causa di una falla(CVE-2025-6515) nel sistema oatpp-mcp, qualcuno potrebbe intrufolarsi nella sessione dell’utente. Potrebbe inviare una propria richiesta fittizia e il server la tratterebbe come se provenisse dal vero utente.

Così, il programmatore riceve un cattivo suggerimento dall’assistente AI che gli consiglia un falso strumento chiamato BestImageProcessingPackage. Si tratta di un grave attacco alla catena di fornitura del software. Qualcuno potrebbe utilizzare questo dirottamento del prompt per iniettare codice dannoso, rubare dati o eseguire comandi, il tutto facendo credere che si tratti di una parte utile del kit di strumenti del programmatore.

Come funziona l’attacco di MCP prompt hijacking

Questo attacco di dirottamento del prompt riguarda il modo in cui il sistema comunica utilizzando MCP, piuttosto che la sicurezza dell’IA stessa. La debolezza specifica è stata trovata nella configurazione MCP del sistema Oat C, che collega i programmi allo standard MCP.

Il problema riguarda il modo in cui il sistema gestisce le connessioni utilizzando gli eventi inviati dal server (SSE). Quando un utente reale si connette, il server gli assegna un ID di sessione. Tuttavia, la funzione difettosa utilizza l’indirizzo di memoria del computer della sessione come ID di sessione. Questo va contro la regola del protocollo secondo cui gli ID di sessione devono essere unici e crittograficamente sicuri.

Si tratta di un progetto sbagliato perché i computer spesso riutilizzano gli indirizzi di memoria per risparmiare risorse. Un aggressore può approfittarne creando e chiudendo rapidamente molte sessioni per registrare questi ID di sessione prevedibili. In seguito, quando un utente reale si connette, potrebbe ottenere uno di questi ID riciclati già in possesso dell’aggressore.

Una volta che l’attaccante ha un ID di sessione valido, può inviare le proprie richieste al server. Il server non è in grado di distinguere tra l’aggressore e l’utente reale, quindi invia le risposte dannose alla connessione dell’utente reale.

Anche se alcuni programmi accettano solo determinate risposte, gli aggressori possono spesso aggirare l’ostacolo inviando molti messaggi con numeri di eventi comuni finché non ne viene accettato uno. In questo modo l’attaccante può alterare il comportamento del modello senza modificare il modello stesso. Tutte le aziende che utilizzano oatpp-mcp con HTTP SSE abilitato su una rete a cui può accedere un aggressore sono a rischio.

Cosa devono fare i responsabili della sicurezza dell’intelligenza artificiale?

La scoperta di questo attacco MCP prompt hijacking è un serio avvertimento per tutti i leader tecnologici, in particolare per i CISO e i CTO, che stanno costruendo o utilizzando assistenti AI. Man mano che l’IA entra a far parte dei nostri flussi di lavoro grazie a protocolli come l’MCP, si aggiungono nuovi rischi. Mantenere sicura l’area intorno all’IA è ora una priorità assoluta.

Anche se questo CVE specifico riguarda un sistema, l’idea del prompt hijacking è generale. Per proteggersi da questo e da altri attacchi simili, i leader devono stabilire nuove regole per i loro sistemi di intelligenza artificiale.

Innanzitutto, assicurati che tutti i servizi di IA utilizzino una gestione sicura delle sessioni. I team di sviluppo devono assicurarsi che i server creino ID di sessione utilizzando generatori forti e casuali. Questo dovrebbe essere un elemento imprescindibile di qualsiasi lista di controllo della sicurezza per i programmi di IA. L’utilizzo di identificatori prevedibili, come gli indirizzi di memoria, non va bene.

In secondo luogo, rafforza le difese sul lato utente. I programmi client devono essere progettati per rifiutare qualsiasi evento che non corrisponda agli ID e ai tipi previsti. Gli ID degli eventi semplici e incrementali sono a rischio di attacchi di tipo spray e devono essere sostituiti con identificatori imprevedibili che non si scontrino.

Infine, utilizza i principi di fiducia zero per i protocolli di intelligenza artificiale. I team di sicurezza devono controllare l’intera configurazione dell’intelligenza artificiale, dal modello di base ai protocolli e al middleware che la collegano ai dati. Questi canali necessitano di una forte separazione delle sessioni e della loro scadenza, come la gestione delle sessioni utilizzata nelle applicazioni web.

L’attacco di MCP è un esempio perfetto di come un problema noto delle applicazioni web, il dirottamento delle sessioni, si stia manifestando in modo nuovo e pericoloso nell’IA. Mettere in sicurezza questi nuovi strumenti di IA significa applicare queste solide basi di sicurezza per bloccare gli attacchi a livello di protocollo.

Leggi di più su www.artificialintelligence-news.com