Meta rafforza la sicurezza dell’intelligenza artificiale con i nuovi strumenti di Llama

Se stai costruendo con l’IA o se stai cercando di difenderti dal lato meno interessante di questa tecnologia, Meta ha appena lanciato nuovi strumenti di sicurezza per Llama.

Gli strumenti di sicurezza migliorati per i modelli di intelligenza artificiale Llama arrivano insieme a nuove risorse di Meta pensate per aiutare i team di cybersecurity a sfruttare l’intelligenza artificiale per la difesa. Tutto questo fa parte della volontà di rendere lo sviluppo e l’utilizzo dell’IA un po’ più sicuro per tutti i soggetti coinvolti.

Gli sviluppatori che lavorano con la famiglia di modelli Llama hanno ora a disposizione un kit aggiornato con cui giocare. Puoi ottenere questi ultimi strumenti di Llama Protection direttamente dalla pagina Llama Protections di Meta, oppure trovarli dove vivono molti sviluppatori: Hugging Face e GitHub.

Il primo è Llama Guard 4. Si tratta di un’evoluzione del filtro di sicurezza personalizzabile di Meta per l’intelligenza artificiale. La grande novità è che ora è multimodale e può comprendere e applicare le regole di sicurezza non solo al testo, ma anche alle immagini. Si tratta di un aspetto cruciale in quanto le applicazioni di IA diventano sempre più visive. Questa nuova versione è stata inserita anche nella nuovissima API Llama di Meta, attualmente in anteprima limitata.

Poi c’è LlamaFirewall. Si tratta di un nuovo pezzo del puzzle di Meta, progettato per agire come un centro di controllo della sicurezza per i sistemi AI. Aiuta a gestire diversi modelli di sicurezza che lavorano insieme e si aggancia agli altri strumenti di protezione di Meta. Il suo compito? Individuare e bloccare i rischi che tengono svegli gli sviluppatori di IA, come ad esempio gli attacchi “prompt injection” progettati per ingannare l’IA, la generazione di codice potenzialmente difettoso o il comportamento rischioso dei plug-in di IA.

Meta ha anche dato una bella sistemata al suo Llama Prompt Guard. Il modello principale Prompt Guard 2 (86M) è ora in grado di individuare meglio i fastidiosi tentativi di jailbreak e le iniezioni di prompt. Più interessante, forse, è l’introduzione del Prompt Guard 2 22M.

Prompt Guard 2 22M è una versione molto più piccola e veloce. Meta ritiene che possa ridurre la latenza e i costi di calcolo fino al 75% rispetto al modello più grande, senza sacrificare la potenza di rilevamento. Per tutti coloro che hanno bisogno di risposte più rapide o che lavorano con budget ridotti, si tratta di un’aggiunta gradita.

Ma Meta non si sta concentrando solo sui costruttori di AI, bensì anche sui difensori informatici in prima linea nella sicurezza digitale. Ha sentito le richieste di strumenti migliori basati sull’intelligenza artificiale per aiutare nella lotta contro i cyberattacchi e sta condividendo alcuni aggiornamenti che mirano proprio a questo.

La suite di benchmark CyberSec Eval 4 è stata aggiornata. Questo toolkit open-source aiuta le organizzazioni a capire quanto siano effettivamente bravi i sistemi di intelligenza artificiale nelle attività di sicurezza. Quest’ultima versione include due nuovi strumenti:

CyberSOC Eval: realizzato con l’aiuto degli esperti di cybersecurity CrowdStrike, questo framework misura in modo specifico le prestazioni dell’IA in un ambiente reale di Security Operation Centre (SOC). È stato progettato per fornire un quadro più chiaro dell’efficacia dell’IA nel rilevamento e nella risposta alle minacce. Il benchmark stesso è in arrivo.
AutoPatchBench: Questo benchmark verifica la capacità di Llama e di altre IA di trovare e correggere automaticamente le falle di sicurezza nel codice prima che i malintenzionati possano sfruttarle.

Per contribuire a portare questo tipo di strumenti nelle mani di chi ne ha bisogno, Meta sta lanciando il Llama Defenders Program. Si tratta di dare alle aziende partner e agli sviluppatori un accesso speciale a un mix di soluzioni di intelligenza artificiale – alcune open-source, altre ad accesso anticipato, altre ancora proprietarie – tutte orientate a diverse sfide di sicurezza.

Nell’ambito di questa iniziativa, Meta sta condividendo uno strumento di sicurezza AI che utilizza internamente: l’Automated Sensitive Doc Classification Tool. Questo strumento appone automaticamente delle etichette di sicurezza sui documenti all’interno di un’organizzazione. Perché? Per impedire che le informazioni sensibili escano dalla porta o per evitare che vengano accidentalmente inserite in un sistema di intelligenza artificiale (come nelle configurazioni RAG) dove potrebbero essere divulgate.

L’azienda sta anche affrontando il problema dell’audio falso generato dall’intelligenza artificiale, sempre più utilizzato nelle truffe. Llama Generated Audio Detector e Llama Audio Watermark Detector vengono condivisi con i partner per aiutarli a individuare le voci generate dall’IA in potenziali chiamate di phishing o tentativi di frode. Aziende come ZenDesk, Bell Canada e AT&T sono già in fila per integrarli.

Infine, Meta ha dato un’occhiata in anteprima a qualcosa di potenzialmente enorme per la privacy degli utenti: Private Processing. Si tratta di una nuova tecnologia a cui stanno lavorando per WhatsApp. L’idea è quella di permettere all’intelligenza artificiale di fare cose utili come riassumere i messaggi non letti o aiutarti a redigere le risposte, ma senza che Meta o WhatsApp possano leggere il contenuto dei messaggi.

Meta si è dimostrata piuttosto aperta sul fronte della sicurezza, pubblicando persino il proprio modello di minaccia e invitando i ricercatori di sicurezza a cercare falle nell’architettura prima che venga messa in funzione. È un segno che sanno di dover affrontare al meglio l’aspetto della privacy.

Nel complesso, Meta ha fatto un’ampia serie di annunci sulla sicurezza dell’intelligenza artificiale. L’azienda sta chiaramente cercando di mettere in atto un’azione seria per proteggere l’IA che costruisce, fornendo al contempo alla comunità tecnologica più ampia strumenti migliori per costruire in modo sicuro e difendersi efficacemente.

Leggi di più su www.artificialintelligence-news.com