Anthropic illustra la sua strategia di sicurezza AI

Anthropic ha dettagliato la sua strategia di sicurezza per cercare di mantenere il suo popolare modello di AI, Claude, utile evitando di perpetuare i danni.

Al centro di questo sforzo c’è il team Safeguards di Anthropic, che non è il solito gruppo di assistenza tecnica, ma un mix di esperti di policy, data scientist, ingegneri e analisti delle minacce che sanno come pensano i cattivi attori.

Tuttavia, l’approccio di Anthropic alla sicurezza non è un singolo muro, ma piuttosto un castello con più livelli di difesa. Tutto inizia con la creazione delle regole giuste e termina con la caccia alle nuove minacce in libertà.

La prima è la Politica d’uso, che in pratica è il regolamento per l’utilizzo di Claude. Fornisce indicazioni chiare su questioni importanti come l’integrità delle elezioni e la sicurezza dei bambini, ma anche sull’uso responsabile di Claude in settori sensibili come la finanza o la sanità.

Per definire queste regole, il team utilizza un quadro di riferimento unificato per il danno. Questo li aiuta a riflettere sui potenziali impatti negativi, dai danni fisici e psicologici a quelli economici e sociali. Non si tratta di un sistema di classificazione formale, ma di un modo strutturato per valutare i rischi quando si prendono le decisioni. Per i Test di Vulnerabilità delle Politiche, inoltre, si rivolgono a esperti esterni. Questi specialisti in settori come il terrorismo e la sicurezza dei bambini cercano di “rompere” Claude con domande difficili per capire quali sono i punti deboli.

Lo abbiamo visto in azione durante le elezioni americane del 2024. Dopo aver collaborato con l’Istituto per il Dialogo Strategico, Anthropic si è resa conto che Claude avrebbe potuto fornire vecchie informazioni di voto. Per questo ha aggiunto un banner che indirizzava gli utenti a TurboVote, una fonte affidabile di informazioni elettorali aggiornate e non di parte.

Insegnare a Claude a distinguere il bene dal male

Il team di Anthropic Safeguards lavora a stretto contatto con gli sviluppatori che addestrano Claude per garantire la sicurezza fin dall’inizio. Questo significa decidere quali sono le cose che Claude deve o non deve fare e incorporare questi valori nel modello stesso.

Inoltre, collaborano con specialisti per ottenere il giusto risultato. Ad esempio, grazie alla collaborazione con ThroughLine, un’associazione di supporto alle crisi, hanno insegnato a Claude come gestire con cura le conversazioni delicate sulla salute mentale e l’autolesionismo, invece di rifiutarsi di parlare. Questo attento addestramento è il motivo per cui Claude rifiuta le richieste di aiuto per attività illegali, la scrittura di codice maligno o la creazione di truffe.

Prima che ogni nuova versione di Claude diventi operativa, viene sottoposta a tre tipi di valutazione.

Valutazioni di sicurezza: Questi test verificano se Claude rispetta le regole, anche nelle conversazioni più lunghe e complesse.

Valutazioni del rischio: Per le aree ad alto rischio, come le minacce informatiche o i rischi biologici, il team esegue test specializzati, spesso con l’aiuto di partner governativi e industriali.

Valutazioni dei pregiudizi: Si tratta di una questione di equità. Verificano se Claude fornisce risposte affidabili e accurate per tutti, verificando se ci sono pregiudizi politici o risposte distorte in base a fattori quali il sesso o la razza.

Questi test intensivi aiutano il team a capire se la formazione ha funzionato e a capire se è necessario creare ulteriori protezioni prima del lancio.

Cycle of how the Anthropic Safeguards team approaches building effective AI safety protections throughout the lifecycle of its Claude models. — *(Credit: Anthropic)*

La strategia di sicurezza dell’AI di Anthropic che non si addormenta mai

Una volta che Claude è in giro per il mondo, un mix di sistemi automatici e revisori umani tiene d’occhio i problemi. Lo strumento principale è costituito da una serie di modelli specializzati di Claude chiamati “classificatori” che vengono addestrati per individuare in tempo reale specifiche violazioni della politica nel momento in cui si verificano.

Se un classificatore individua un problema, può attivare diverse azioni. Ad esempio, potrebbe evitare che la risposta di Claude generi qualcosa di dannoso, come lo spam. Per i recidivi, il team potrebbe emettere avvisi o addirittura chiudere l’account.

Il team guarda anche al quadro generale. Utilizza strumenti che rispettano la privacy per individuare le tendenze di utilizzo di Claude e impiega tecniche come la sintesi gerarchica per individuare abusi su larga scala, come le campagne di influenza coordinate. Sono costantemente alla ricerca di nuove minacce, scavando tra i dati e monitorando i forum in cui i malintenzionati potrebbero frequentarsi.

Tuttavia, Anthropic sa che garantire la sicurezza dell’IA non è un lavoro che può fare da sola. Sta collaborando attivamente con i ricercatori, i politici e il pubblico per costruire le migliori protezioni possibili.

(Immagine principale di Nick Fewings)

Leggi di più su www.artificialintelligence-news.com