I ricercatori di Anthropic hanno identificato con successo milioni di concetti all’interno di Claude Sonnet, uno dei loro LLM avanzati.
I modelli di intelligenza artificiale sono spesso considerati scatole nere, nel senso che non è possibile ‘guardare’ all’interno per capire esattamente come funzionano.
Quando si fornisce un input a un LLM, esso genera una risposta, ma la logica dietro le sue scelte non è chiara.
Il vostro input entra e l’output esce – e persino gli sviluppatori di intelligenza artificiale stessi non comprendono veramente cosa succede all’interno di quella ‘scatola’.
Le reti neurali creano le loro proprie rappresentazioni interne delle informazioni quando mappano gli input con gli output durante l’addestramento sui dati. Le pietre miliari di questo processo, chiamate “attivazioni dei neuroni”, sono rappresentate da valori numerici.
Ogni concetto è distribuito su più neuroni, e ogni neurone contribuisce a rappresentare più concetti, rendendo complicato mappare i concetti direttamente sui singoli neuroni.
Questa è una analogia con i nostri cervelli umani. Proprio come i nostri cervelli elaborano gli input sensoriali e generano pensieri, comportamenti e ricordi, i miliardi, persino trilioni, di processi dietro queste funzioni rimangono per lo più sconosciuti alla scienza.
Lo studio di Anthropic tenta di vedere all’interno della scatola nera dell’IA con una tecnica chiamata “apprendimento del dizionario”.
Questo implica lo scomporre pattern complessi in un modello di IA in blocchi elementari o “atomi” che abbiano un senso intuitivo per gli esseri umani.
Mappatura dei LLM con l’Apprendimento del Dizionario
Nell’ottobre 2023, Anthropic ha applicato questo metodo a un piccolo modello di linguaggio giocattolo e ha trovato caratteristiche coerenti corrispondenti a concetti come testo in maiuscolo, sequenze di DNA, cognomi in citazioni, sostantivi matematici o argomenti di funzioni nel codice Python.
Questo ultimo studio amplia la tecnica per farla funzionare con i modelli di linguaggio IA più grandi di oggi, in questo caso, il Sonnet 3 di Anthropic.
Ecco una descrizione passo-passo di come è stato condotto lo studio:
Identificazione dei pattern con l’apprendimento del dizionario
Anthropic ha utilizzato l’apprendimento del dizionario per analizzare le attivazioni dei neuroni in vari contesti e identificare i pattern comuni.
L’apprendimento del dizionario raggruppa queste attivazioni in un set più piccolo di “caratteristiche” significative, che rappresentano concetti di livello superiore appresi dal modello.
Identificando queste caratteristiche, i ricercatori possono capire meglio come il modello elabora e rappresenta le informazioni.
Estrazione delle feature dallo strato intermedio
I ricercatori si sono concentrati sullo strato intermedio del Sonnet 3.0 di Claude, che funge da punto critico nella pipeline di elaborazione del modello.
Applicando l’apprendimento del dizionario a questo strato si estraggono milioni di funzionalità che catturano le rappresentazioni interne del modello e i concetti appresi a questo stadio.
Estrarre le caratteristiche dallo strato intermedio permette ai ricercatori di esaminare la comprensione del modello delle informazioni dopo che ha elaborato l’input prima di generare l’output finale.
Scoperta di concetti diversi e astratti
Le funzionalità estratte hanno rivelato un ampio ventaglio di concetti appresi da Claude, da entità concrete come città e persone a nozioni astratte relative a campi scientifici e sintassi di programmazione.
Significativamente, le caratteristiche sono risultate multimodali, rispondendo sia agli input testuali che visivi, indicando che il modello può apprendere e rappresentare concetti attraverso diverse modalità.
Inoltre, le funzionalità multilingue suggeriscono che il modello può comprendere concetti espressi in varie lingue.

Analisi dell’organizzazione dei concetti
Per capire come il modello organizza e mette in relazione diversi concetti, i ricercatori hanno analizzato la somiglianza tra le caratteristiche basata sui loro modelli di attivazione.
Hanno scoperto che le caratteristiche che rappresentavano concetti correlati tendevano a raggrupparsi insieme. Ad esempio, le caratteristiche associate alle città o alle discipline scientifiche mostravano una maggiore somiglianza tra di loro rispetto alle caratteristiche che rappresentavano concetti non correlati.
Questo suggerisce che l’organizzazione interna dei concetti del modello si allinea, fino a un certo punto, con le intuizioni umane sulle relazioni concettuali.

Verifica delle features
Per confermare che le caratteristiche identificate influenzano direttamente il comportamento e gli output del modello, i ricercatori hanno condotto esperimenti di “guida delle caratteristiche”.
Ciò ha comportato l’amplificazione o la soppressione selettiva dell’attivazione di specifiche caratteristiche durante l’elaborazione del modello e l’osservazione dell’im



