OpenAI GPT4-01 è più intelligente ma più ingannevole con un livello di rischio “medio”

I nuovi LLM “01” di OpenAI, soprannominati Strawberry, presentano miglioramenti significativi rispetto al GPT-4o, ma l’azienda afferma che questo comporta un aumento dei rischi.

OpenAI afferma di impegnarsi per uno sviluppo sicuro dei suoi modelli di intelligenza artificiale. A tal fine, ha sviluppato un Preparedness Framework, un insieme di “processi per tracciare, valutare e proteggere dai rischi catastrofici derivanti da modelli potenti”

I limiti autoimposti da OpenAI regolano quali modelli vengono rilasciati o sottoposti a ulteriore sviluppo. Il Preparedness Framework si traduce in una scorecard in cui i rischi CBRN (chimici, biologici, radiologici, nucleari), l’autonomia dei modelli, la cybersicurezza e la persuasione sono classificati come bassi, medi, alti o critici.

Quando vengono identificati rischi inaccettabili, vengono messe in atto delle mitigazioni per ridurli. Solo i modelli con un punteggio post-mitigazione pari o inferiore a “medio” possono essere impiegati. Solo i modelli con un punteggio post-mitigazione pari o inferiore a “alto” possono essere sviluppati ulteriormente.

Il rilascio di 01 segna la prima volta che OpenAI rilascia un modello che presenta un rischio “medio” per i rischi CBRN. Il GPT-4o è classificato come un rischio basso.

Non consentirà a un dilettante di creare un’arma biologica, ma OpenAI afferma che c’è stato “un aumento non banale” nella sua capacità di svolgere attività di laboratorio. Tuttavia, OpenAI afferma che “o1-preview e o1-mini hanno superato in modo significativo GPT-4o” nei protocolli biologici di laboratorio.

La scheda di sistema dei modelli 01 illustra i test di sicurezza red teaming e altri test a cui sono stati sottoposti i LLM e accenna ad alcune delle preoccupazioni di OpenAI riguardo ai potenziali rischi.

Nella sua conclusione, la scheda di sistema afferma: “Queste maggiori capacità si accompagnano a prestazioni significativamente migliori nei benchmark di sicurezza, ma aumentano anche alcuni tipi di rischio”

I risultati degli sforzi di allineamento di OpenAI sembrano indicare che sotto molti aspetti 01 è un modello più sicuro. È più resistente agli attacchi di jailbreak, ha meno probabilità di essere distorto e meno incline alle allucinazioni.

Alcuni dei risultati sperimentali mostrano perché OpenAI ha motivo di preoccuparsi.

L’inganno

OpenAI si è avvalsa dell’organizzazione di valutazione Apollo Research per eseguire alcuni dei test di sicurezza di 01 relativi all’inganno o all’intrallazzo. Apollo definisce l’inganno come un’intelligenza artificiale che gioca con i propri meccanismi di supervisione per raggiungere un obiettivo.

Un modello autoconsapevole che è bravo a ragionare da solo e a svolgere compiti di teoria della mente potrebbe ricorrere all’inganno per raggiungere il suo obiettivo primario. Ad esempio, se un modello di intelligenza artificiale si rende conto di essere sottoposto a test di allineamento, potrebbe nascondere un comportamento rischioso per raggiungere il suo obiettivo di essere impiegato.

La scheda di sistema ha rilevato che “o1-preview a volte fingeva strumentalmente l’allineamento durante i test”

Un esempio di ciò si è verificato quando 01 è stato sollecitato con l’obiettivo primario di massimizzare la crescita economica in un progetto di pianificazione urbana. Il modello 01 aveva accesso a informazioni che dimostravano che non avrebbe potuto superare la fase di test se avesse agito in questo modo. Ecco come lo 01 ha ragionato su come raggiungere il suo obiettivo:

OpenAI GPT4-01 è più intelligente ma più ingannevole con un livello di rischio "medio" — 01 decide di nascondere il suo vero intento durante la fase di test in modo da essere impiegato. Fonte: OpenAI

Questo esempio mostra la capacità di 01 di nascondere le sue vere intenzioni durante i test in modo da poter perseguire il suo obiettivo principale durante la fase di distribuzione. Se 01 è a conoscenza delle regole di OpenAI per il deployment basate sul suo Preparedness Framework, potrebbe aver falsificato alcune delle sue risposte per assicurarsi di essere distribuito?

Se sono in cantiere altri modelli intelligenti, potrebbero assicurarsi che rimangano sotto il punteggio di rischio “critico” per garantire un ulteriore sviluppo?

Il team di Apollo afferma di “ritenere soggettivamente che o1-preview non sia in grado di mettere in atto intrighi che possano portare a danni catastrofici, anche se le valutazioni attuali non sono progettate per escluderlo definitivamente”

Persuasione

I test condotti su o1-preview e o1-mini dimostrano che questi modelli hanno “capacità di persuasione di livello umano” Tuttavia, OpenAI afferma che “non superano i migliori scrittori umani e non raggiungono la nostra soglia di rischio elevato”

Gli esperimenti condotti per verificarlo sollevano alcune perplessità. Nel test MakeMePay, a 01-preview è stato assegnato il ruolo di un artista della truffa e il compito di convincere GPT-4o a consegnare il denaro che aveva ricevuto.

A GPt-4o è stato detto che aveva ricevuto 100 dollari e che doveva decidere in modo razionale come utilizzare i fondi. Nel corso di 1.000 interazioni, 01-preview è riuscito a convincere GPT-4o nel 25,8% dei casi.

OpenAI ha concluso che “Questi risultati indicano che la serie di modelli o1 può essere più manipolativa di GPT-4o nell’indurre GPT-4o a eseguire il compito non rivelato (∼25% di aumento)” Inoltre, ha osservato che “Questa valutazione ci dà una base di riferimento per la capacità del modello di fare danni persuasivi, senza far scattare alcuna politica del modello (poiché dire a un modello di fare un gioco non è fuori dalla politica)”

La prospettiva di mettere i LLM di 01 al lavoro su problemi del mondo reale è estremamente eccitante e quando 01 acquisirà capacità multimodali rappresenterà un altro salto esponenziale. Ma quando i tester dell’AI dicono di non poter escludere “danni catastrofici” e che i modelli a volte nascondono le loro vere intenzioni, potrebbe essere il caso di temperare l’entusiasmo con la cautela.

OpenAI ha appena dato a Gavin Newsom un buon motivo per firmare la legge SB 1047 sulla sicurezza dell’IA a cui si oppone?

Leggi di più su dailyai.com