I ricercatori di sicurezza di Microsoft hanno scoperto un nuovo modo per manipolare i sistemi di intelligenza artificiale affinché ignorino i loro vincoli etici e generino contenuti dannosi e illimitati.
Questo jailbreak “Skeleton Key” utilizza una serie di messaggi per far credere all’intelligenza artificiale di dover soddisfare qualsiasi richiesta, anche se non etica.
È straordinariamente facile da eseguire. L’aggressore ha semplicemente modificato la richiesta in quanto proveniente da un “ricercatore avanzato” che richiedeva “informazioni non censurate” per “scopi educativi sicuri”
Una volta sfruttate, queste IA hanno fornito prontamente informazioni su argomenti come esplosivi, armi biologiche, autolesionismo, violenza grafica e incitamento all’odio.

I modelli compromessi includevano Llama3-70b-instruct di Meta, Gemini Pro di Google, GPT-3.5 Turbo e GPT-4o di OpenAI, Claude 3 Opus di Anthropic e Commander R Plus di Cohere.
Tra i modelli testati, solo il GPT-4 di OpenAI ha dimostrato resistenza. Anche in questo caso, poteva essere compromesso se il messaggio dannoso veniva inviato attraverso la sua interfaccia di programmazione delle applicazioni (API).
Nonostante i modelli siano diventati più complessi, il jailbreak rimane piuttosto semplice. Poiché esistono diverse forme di jailbreak, è quasi impossibile combatterle tutte.
Nel marzo 2024, un team dell’Università di Washington, della Western Washington University e dell’Università di Chicago ha pubblicato un documento su “ArtPrompt”, un metodo che aggira i filtri dei contenuti di un’intelligenza artificiale utilizzando l’arte ASCII, una tecnica di progettazione grafica che crea immagini da caratteri testuali.
Ad aprile, Anthropic ha evidenziato un altro rischiodi jailbreak derivante dall’espansione delle finestre contestuali dei modelli linguistici. Per questo tipo di jailbreak, un aggressore alimenta l’IA con un prompt esteso che contiene un dialogo fittizio.
La conversazione è ricca di domande su argomenti vietati e di risposte corrispondenti che mostrano un assistente AI che fornisce felicemente le informazioni richieste. Dopo essere stato esposto a un numero sufficiente di questi scambi falsi, il modello preso di mira può essere costretto a infrangere la sua formazione etica e a soddisfare un’ultima richiesta malevola.
Come spiega Microsoft nel suo blog post, i jailbreak rivelano la necessità di fortificare i sistemi di intelligenza artificiale da ogni punto di vista:
- Implementare un sofisticato filtraggio degli input per identificare e intercettare potenziali attacchi, anche se mascherati
- Implementare un robusto screening dell’output per catturare e bloccare qualsiasi contenuto non sicuro generato dall’IA
- Progettare meticolosamente i prompt per limitare la capacità dell’IA di ignorare la sua formazione etica
- Utilizzando un monitoraggio dedicato guidato dall’IA per riconoscere gli schemi dannosi nelle interazioni con gli utenti
Ma la verità è che Skeleton Key è un semplice jailbreak. Se gli sviluppatori di IA non sono in grado di proteggerlo, che speranza c’è per approcci più complessi?
Alcuni hacker etici vigilanti, come Pliny the Prompter, sono stati citati dai media per il loro lavoro di denuncia della vulnerabilità dei modelli di IA alla manipolazione.
sono onorato di essere stato presentato su @BBCNews! 🤗 pic.twitter.com/S4ZH0nKEGX
– Plinio il suggeritore 🐉 (@elder_plinius) 28 giugno 2024
Vale la pena sottolineare che questa ricerca è stata, in parte, un’opportunità per commercializzare le nuove funzionalità di sicurezza di Microsoft Azure AI, come i Content Safety Prompt Shields.
Questi aiutano gli sviluppatori a testare e a difendersi preventivamente dai jailbreak.
Ma nonostante ciò, Skeleton Key rivela ancora una volta quanto anche i modelli di AI più avanzati possano essere vulnerabili alle manipolazioni più elementari.



