Uno studio dell’Università di Oxford identifica i momenti in cui è più probabile che si verifichino le allucinazioni della IA

Uno studio dell’Università di Oxford ha sviluppato un metodo per verificare quando i modelli linguistici sono “insicuri” dei loro risultati e rischiano di avere allucinazioni.

Le “allucinazioni” dell’intelligenza artificiale si riferiscono al fenomeno per cui i modelli linguistici di grandi dimensioni (LLM) generano risposte fluenti e plausibili che non sono veritiere o coerenti.

Le allucinazioni sono difficili, se non impossibili, da separare dai modelli di IA. Sviluppatori di IA come OpenAI, Google e Anthropic hanno tutti ammesso che le allucinazioni rimarranno probabilmente un sottoprodotto dell’interazione con l’IA.

Come spiega ilDr. Sebastian Farquhar, uno degli autori dello studio, inun post sul blog, “I LLM sono altamente capaci di dire la stessa cosa in molti modi diversi, il che può rendere difficile capire quando sono certi di una risposta e quando stanno letteralmente inventando qualcosa ”

IlCambridge Dictionary ha persino aggiunto una definizione di AI alla parola nel 2023 e l’ha nominata “Parola dell’anno ”

La domanda a cui questo studio dell’Università di Oxford ha cercato di rispondere è: cosa succede davvero quando un LLM ha le allucinazioni? E come possiamo capire quando è probabile che accada?

Lo studio, pubblicato su Nature, introduce un concetto chiamato “entropia semantica”, che misura l’incertezza dei risultati di un LLM a livello di significato piuttosto che di parole o frasi specifiche utilizzate.

Calcolando l’entropia semantica delle risposte di un LLM, i ricercatori possono stimare la fiducia del modello nei suoi risultati e identificare i casi in cui è probabile che abbia delle allucinazioni.

L’entropia semantica nei LLM

L’entropia semantica, come definita dallo studio, misura l’incertezza o l’incoerenza del significato delle risposte di un LLM. Aiuta a capire quando un LLM potrebbe avere delle allucinazioni o generare informazioni inaffidabili.

In termini più semplici, l’entropia semantica misura quanto sia “confuso” l’output di un LLM. È probabile che il LLM fornisca informazioni affidabili se i significati sono strettamente correlati e coerenti. Ma se i significati sono sparsi e incoerenti, è un segnale di allarme che indica che il LLM potrebbe avere delle allucinazioni o generare informazioni imprecise.

Ecco come funziona:

I ricercatori hanno sollecitato attivamente il LLM a generare diverse possibili risposte alla stessa domanda. Ciò avviene somministrando la domanda all’LLM più volte, ogni volta con un seme casuale diverso o una leggera variazione dell’input.
L’entropia semantica esamina le risposte e raggruppa quelle che hanno lo stesso significato di fondo, anche se utilizzano parole o frasi diverse.
Se il LLM è sicuro della risposta, le sue risposte dovrebbero avere significati simili, con un conseguente basso punteggio di entropia semantica. Questo suggerisce che il LLM comprende in modo chiaro e coerente le informazioni.
Tuttavia, se il LLM è incerto o confuso, le sue risposte avranno una maggiore varietà di significati, alcuni dei quali potrebbero essere incoerenti o non correlati alla domanda. Ciò si traduce in un punteggio di entropia semantica elevato, che indica che il LLM potrebbe avere allucinazioni o generare informazioni inaffidabili.

I ricercatori hanno applicato l’entropia semantica a una serie di compiti di risposta alle domande per valutarne l’efficacia. Sitrattava di parametri di riferimento come domande di curiosità, comprensione della lettura, problemi con le parole e biografie.

In tutti i casi, l’entropia semantica ha superato i metodi esistenti per individuare quando è probabile che un LLM generi una risposta errata o incoerente.

Hallucinations — L’entropia semantica raggruppa le risposte con significati comuni prima di calcolare l’entropia, rendendola adatta a compiti linguistici in cui risposte diverse possono avere lo stesso significato. Una bassa entropia semantica indica la fiducia del LLM nel significato. Per i passaggi più lunghi, il testo viene scomposto in fattori, vengono generate le domande che potrebbero produrre ciascun fattore e l’LLM genera risposte multiple. L’entropia semantica, compreso il fattoide originale, viene calcolata per le risposte di ogni domanda. Un’entropia semantica media elevata suggerisce una confabulazione (fatti essenzialmente allucinati dichiarati come reali), mentre un’entropia bassa, nonostante la formulazione variabile, indica un dato probabilmente vero. Fonte: Nature (accesso libero)

Nel diagramma qui sopra puoi vedere come alcune richieste spingano il LLM a generare una risposta confabulata (imprecisa). Ad esempio, produce un giorno e un mese di nascita quando non sono stati forniti nelle informazioni iniziali.

Implicazioni del rilevamento delle allucinazioni

Questo lavoro può aiutare a spiegare le allucinazioni e a rendere le LLM più affidabili e attendibili.

Fornendo un modo per rilevare quando un LLM è incerto o tendente all’allucinazione, l’entropia semantica apre la strada all’impiego di questi strumenti di IA in settori ad alta concentrazione in cui l’accuratezza dei fatti è fondamentale, come la sanità, la legge e la finanza.

I risultati errati possono avere un impatto potenzialmente catastrofico quando influenzano situazioni ad alto rischio, come dimostrano alcuni sistemi predittivi di polizia e di assistenza sanitaria che hanno fallito.

Tuttavia, è anche importante ricordare che le allucinazioni sono solo un tipo di errore che i LLM possono commettere.

Come spiega il Dr. Farquhar, “se un LLM commette errori costanti, questo nuovo metodo non li coglie. I fallimenti più pericolosi dell’IA si verificano quando un sistema fa qualcosa di sbagliato ma è sicuro e sistematico. C’è ancora molto lavoro da fare”

Tuttavia, il metodo dell’entropia semantica del team di Oxford rappresenta un importante passo avanti nella nostra capacità di comprendere e mitigare i limiti dei modelli linguistici dell’IA.

Fornire un mezzo oggettivo per individuarli ci avvicina a un futuro in cui potremo sfruttare il potenziale dell’IA assicurandoci che rimanga uno strumento affidabile e degno di fiducia al servizio dell’umanità.

Leggi di più su dailyai.com