Prestazioni dei modelli di intelligenza artificiale: Si tratta di ragionare o semplicemente di recitare?

Quando ChatGPT ti dà la risposta giusta al tuo quesito, ragiona sulla richiesta o ricorda semplicemente la risposta dai suoi dati di addestramento?

I ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT hanno progettato una serie di test per capire se i modelli di intelligenza artificiale “pensano” o se hanno semplicemente una buona memoria.

Quando si chiede a un modello di intelligenza artificiale di risolvere un problema matematico come “Quanto fa 27 62?”, il modello risponde rapidamente con la risposta corretta: 89. Come possiamo capire se il modello comprende l’aritmetica sottostante o se ha semplicemente visto il problema nei suoi dati di addestramento?

Nel loro articolo, i ricercatori hanno testato GPT-4, GPT-3.5 Turbo, Claude 1.3 e PaLM2 per vedere se erano in grado di “generalizzare non solo a istanze non viste di compiti noti, ma anche a nuovi compiti”

Hanno progettato una serie di 11 compiti che differiscono leggermente dai compiti standard in cui gli LLM generalmente ottengono buoni risultati.

I LLM dovrebbero ottenere le stesse prestazioni con i “compiti controfattuali” se utilizzano procedure di risoluzione dei compiti generali e trasferibili.

Se un LLM “capisce” la matematica, allora dovrebbe fornire la risposta corretta a un problema matematico in base 10 e nella raramente utilizzata base 9, ad esempio.

Ecco alcuni esempi di compiti e le prestazioni del GPT-4.

Prestazioni dei modelli di intelligenza artificiale: Si tratta di ragionare o semplicemente di recitare? — Prestazioni del GPT-4 con compiti standard predefiniti (blu) e compiti controfattuali leggermente modificati (arancione). Qui sono mostrati esempi di compiti e risposte corrette. Fonte: arXiv

Le prestazioni di GPT-4 nei test standard (linea blu) sono buone, ma le sue abilità matematiche, di ragionamento logico, spaziale e di altro tipo (linea arancione) peggiorano significativamente quando il compito viene leggermente alterato.

Gli altri modelli hanno mostrato un degrado simile, con il GPT-4 che si è distinto.

Nonostante il degrado, le prestazioni nei compiti controfattuali erano comunque superiori al caso. I modelli di intelligenza artificiale cercano di ragionare su questi compiti, ma non sono molto bravi.

I risultati dimostrano che le impressionanti prestazioni dei modelli di intelligenza artificiale in compiti come gli esami universitari si basano su un eccellente richiamo dei dati di formazione, non sul ragionamento. Questo evidenzia ulteriormente che i modelli di intelligenza artificiale non possono generalizzarsi a compiti inediti,

Zhaofeng Wu, dottorando in ingegneria elettrica e informatica del MIT, affiliato CSAIL e autore principale dell’articolo, ha dichiarato: “Abbiamo scoperto un aspetto affascinante dei modelli linguistici di grandi dimensioni: eccellono in scenari familiari, quasi come un sentiero ben battuto, ma faticano quando il terreno diventa sconosciuto. Questa intuizione è fondamentale quando cerchiamo di migliorare l’adattabilità di questi modelli e di ampliare i loro orizzonti applicativi”

Abbiamo visto una dimostrazione simile di questa incapacità di generalizzare quando abbiamo esplorato quanto i modelli di intelligenza artificiale siano incapaci di risolvere un puzzle semplificato di attraversamento di un fiume.

I ricercatori hanno concluso che, quando gli sviluppatori analizzano i loro modelli, dovrebbero “considerare l’abilità astratta del compito come indipendente dalle prestazioni osservate del compito”

L’approccio “train-to-test” può far salire un modello nei benchmark, ma non offre una vera misura di come il modello se la caverà quando gli verrà presentato un nuovo compito su cui ragionare.

I ricercatori suggeriscono che parte del problema è che questi modelli vengono addestrati solo su testi di forma superficiale.

Se i LLM venissero esposti a dati contestualizzati e a rappresentazioni semantiche più reali, potrebbero essere in grado di generalizzare quando gli vengono presentate delle variazioni nel compito.

Leggi di più su dailyai.com