OpenAI migliora la sicurezza dell’IA con nuovi metodi di red teaming

Una parte fondamentale del processo di salvaguardia di OpenAI è il “red teaming”, una metodologia strutturata che prevede l’impiego di partecipanti umani e AI per esplorare i potenziali rischi e le vulnerabilità dei nuovi sistemi.

Storicamente, OpenAI si è impegnata in attività di red teaming prevalentemente attraverso test manuali, che prevedono l’impiego di persone che sondano i punti deboli. Questo metodo è stato utilizzato in particolare durante il test del modello di generazione di immagini DALL-E 2 all’inizio del 2022, dove esperti esterni sono stati invitati a identificare i potenziali rischi. Da allora, OpenAI ha ampliato e perfezionato le sue metodologie, incorporando approcci automatizzati e misti per una valutazione dei rischi più completa.

“Siamo ottimisti sul fatto di poter utilizzare un’IA più potente per scalare la scoperta degli errori dei modelli”, ha dichiarato OpenAI. Questo ottimismo si basa sull’idea che i processi automatizzati possano aiutare a valutare i modelli e ad addestrarli a essere più sicuri, riconoscendo schemi ed errori su scala più ampia.

Nella sua ultima iniziativa, OpenAI sta condividendo due importanti documenti sul red teaming: un white paper che illustra le strategie di coinvolgimento esterno e uno studio di ricerca che introduce un nuovo metodo per il red teaming automatizzato. Questi contributi mirano a rafforzare il processo e i risultati del red teaming, portando in ultima analisi a implementazioni di IA più sicure e responsabili.

Con la continua evoluzione dell’IA, la comprensione delle esperienze degli utenti e l’identificazione di rischi come l’abuso e l’uso improprio sono fondamentali per i ricercatori e gli sviluppatori. Il red teaming fornisce un metodo proattivo per valutare questi rischi, soprattutto se integrato con le opinioni di una serie di esperti esterni indipendenti. Questo approccio non solo aiuta a stabilire dei parametri di riferimento, ma facilita anche il miglioramento delle valutazioni di sicurezza nel tempo.

Il tocco umano

Nel suo white paper “ OpenAI ‘s Approach to External Red Teaming for AI Models and Systems”, OpenAI ha condiviso quattro passi fondamentali per progettare campagne di red teaming efficaci:

Composizione dei team rossi: La selezione dei membri del team si basa sugli obiettivi della campagna. Spesso si tratta di persone con prospettive diverse, come ad esempio esperti in scienze naturali, sicurezza informatica e politica regionale, per garantire che le valutazioni coprano l’ampiezza necessaria.

Accesso alle versioni del modello: Chiarire a quali versioni di un modello avranno accesso i red team può influenzare i risultati. I modelli in fase iniziale possono rivelare i rischi intrinseci, mentre le versioni più sviluppate possono aiutare a identificare le lacune nelle misure di sicurezza previste.

Guida e documentazione: Le interazioni efficaci durante le campagne si basano su istruzioni chiare, interfacce adeguate e una documentazione strutturata. Ciò comporta la descrizione dei modelli, delle protezioni esistenti, delle interfacce di test e delle linee guida per la registrazione dei risultati.

Sintesi e valutazione dei dati: Dopo la campagna, i dati vengono valutati per determinare se gli esempi sono in linea con le politiche esistenti o se richiedono nuove modifiche comportamentali. I dati valutati informano poi le valutazioni ripetibili per gli aggiornamenti futuri.

Una recente applicazione di questa metodologia ha riguardato la preparazione della famiglia di modelli OpenAI o1 per l’uso pubblico, testando la loro resistenza a potenziali abusi e valutando la loro applicazione in vari campi, come la pianificazione di attacchi reali, le scienze naturali e la ricerca sull’intelligenza artificiale.

Red teaming automatizzato

Il red teaming automatizzato cerca di identificare i casi in cui l’IA può fallire, in particolare per quanto riguarda le questioni legate alla sicurezza. Questo metodo eccelle su scala, generando rapidamente numerosi esempi di potenziali errori. Tuttavia, gli approcci automatizzati tradizionali hanno faticato a produrre strategie di attacco diversificate e di successo.

La ricerca di OpenAI introduce “Diverse And Effective Red Teaming With Auto-Generated Rewards And Multi-Step Reinforcement Learning”, un metodo che incoraggia una maggiore diversità nelle strategie di attacco mantenendo l’efficacia.

Questo metodo prevede l’utilizzo dell’intelligenza artificiale per generare diversi scenari, come ad esempio consigli illeciti, e l’addestramento di modelli di red teaming per valutare questi scenari in modo critico. Il processo premia la diversità e l’efficacia, promuovendo valutazioni di sicurezza più varie e complete.

Nonostante i suoi vantaggi, il red teaming ha dei limiti. Cattura i rischi in un momento specifico, che possono evolvere con lo sviluppo dei modelli di intelligenza artificiale. Inoltre, il processo di red teaming può creare inavvertitamente dei pericoli informativi, mettendo potenzialmente in guardia gli attori malintenzionati da vulnerabilità non ancora ampiamente conosciute. La gestione di questi rischi richiede protocolli rigorosi e divulgazioni responsabili.

Sebbene il red teaming continui a essere fondamentale per la scoperta e la valutazione dei rischi, OpenAI riconosce la necessità di incorporare prospettive pubbliche più ampie sui comportamenti e le politiche ideali dell’IA per garantire che la tecnologia si allinei ai valori e alle aspettative della società.

Leggi di più su www.artificialintelligence-news.com

ai marketing italia

la prima agenzia dedicata a far crescere la tua pmi con l'intelligenza artificiale

OpenAI migliora la sicurezza dell’IA con nuovi metodi di red teaming

Il tocco umano

Red teaming automatizzato

altre news

Donne e AI: le dieci leader che plasmano il futuro della tecnologia

SpaceX: la scarsità d’acqua è un rischio per l’IPO e l’IA

Uber frena sui costi AI: tetti alla spesa dei dipendenti

Unisciti al futuro!