Un nuovo studio accademico suggerisce che i parametri di riferimento dell’IA sono errati e potrebbero portare le aziende a prendere decisioni importanti sulla base di dati “fuorvianti”.
I leader delle aziende stanno impegnando budget a otto o nove cifre per programmi di IA generativa. Queste decisioni di acquisto e sviluppo spesso si basano su classifiche e benchmark pubblici per confrontare le capacità dei modelli.
Uno studio su larga scala, “Measuring what Matters: Construct Validity in Large Language Model Benchmarks”, ha analizzato 445 benchmark distinti di LLM provenienti dalle principali conferenze sull’IA. Un team di 29 revisori esperti ha scoperto che “quasi tutti gli articoli presentano punti deboli in almeno un’area”, compromettendo le affermazioni sulle prestazioni dei modelli.
Per i CTO e i Chief Data Officer, la questione tocca il cuore della governance dell’IA e della strategia di investimento. Se un benchmark che sostiene di misurare la “sicurezza” o la “robustezza” non coglie effettivamente queste qualità, un’organizzazione potrebbe impiegare un modello che la espone a gravi rischi finanziari e di reputazione.
Il problema della “validità del costrutto
I ricercatori si sono concentrati su un principio scientifico fondamentale noto come validità del costrutto. In parole povere, si tratta del grado in cui un test misura il concetto astratto che dichiara di misurare.
Ad esempio, mentre l'”intelligenza” non può essere misurata direttamente, i test vengono creati per servire come proxy misurabili. Il documento osserva che se un parametro di riferimento ha una bassa validità del costrutto, “un punteggio elevato può essere irrilevante o addirittura fuorviante”.
Questo problema è molto diffuso nella valutazione dell’intelligenza artificiale. Lo studio ha rilevato che i concetti chiave sono spesso “mal definiti o resi operativi”. Questo può portare a “affermazioni scientifiche poco supportate, ricerche sbagliate e implicazioni politiche non fondate su prove solide”.
Quando i fornitori competono per ottenere contratti aziendali mettendo in evidenza i loro migliori punteggi nei benchmark, i leader si fidano effettivamente del fatto che questi punteggi siano una proxy affidabile delle prestazioni aziendali reali. Questa nuova ricerca suggerisce che la fiducia potrebbe essere mal riposta.
Dove falliscono i benchmark dell’AI aziendale
L’analisi ha individuato carenze sistemiche su tutta la linea, dal modo in cui vengono progettati i benchmark al modo in cui vengono riportati i risultati.
Definizioni vaghe o contestate: Non si può misurare ciò che non si riesce a definire. Lo studio ha rilevato che anche quando venivano fornite le definizioni di un fenomeno, il 47,8% era “contestato”, ovvero si trattava di concetti con “molte definizioni possibili o nessuna definizione chiara”.
Il documento utilizza l'”innocuità”, un obiettivo chiave nell’allineamento della sicurezza aziendale, come esempio di un fenomeno che spesso manca di una definizione chiara e condivisa. Se due fornitori ottengono punteggi diversi in un benchmark di “innocuità”, ciò potrebbe riflettere solo due diverse definizioni arbitrarie del termine, non una vera e propria differenza nella sicurezza del modello.
Mancanza di rigore statistico: Forse l’aspetto più allarmante per le organizzazioni basate sui dati è che la revisione ha rilevato che solo il 16% dei 445 benchmark utilizzava stime di incertezza o test statistici per confrontare i risultati dei modelli.
Senza un’analisi statistica, è impossibile sapere se un vantaggio del 2% del modello A rispetto al modello B sia una vera differenza di capacità o una semplice casualità. Le decisioni aziendali sono guidate da numeri che non supererebbero un esame scientifico o di business intelligence.
Contaminazione e memorizzazione dei dati: Molti benchmark, soprattutto quelli per il ragionamento (come l’ampiamente utilizzato GSM8K), vengono compromessi quando le loro domande e risposte compaiono nei dati di pre-addestramento del modello.
Quando ciò accade, il modello non sta ragionando per trovare la risposta, ma la sta semplicemente memorizzando. Un punteggio elevato può indicare una buona memoria, non la capacità di ragionamento avanzato di cui un’azienda ha effettivamente bisogno per un compito complesso. Il documento avverte che questo “mina la validità dei risultati” e raccomanda di inserire i controlli di contaminazione direttamente nel benchmark.
Set di dati non rappresentativi: Lo studio ha rilevato che il 27% dei benchmark ha utilizzato un “campionamento di convenienza”, come il riutilizzo di dati provenienti da benchmark esistenti o da esami umani. Spesso questi dati non sono rappresentativi del fenomeno reale.
Ad esempio, gli autori notano che il riutilizzo di domande di un “esame senza calcolatrice” significa che i problemi utilizzano numeri scelti per essere facili per l’aritmetica di base. Un modello potrebbe ottenere un buon punteggio in questo test, ma questo punteggio “non predice le prestazioni su numeri più grandi, dove i LLM fanno fatica”. Questo crea un punto cieco critico, che nasconde una debolezza nota del modello.
Dalle metriche pubbliche alla convalida interna
Per i leader aziendali, lo studio rappresenta un forte avvertimento: i benchmark pubblici dell’intelligenza artificiale non sostituiscono la valutazione interna e specifica del settore. Un punteggio elevato in una classifica pubblica non è una garanzia di idoneità per uno specifico scopo aziendale.
Isabella Grandi, Director for Data Strategy & Governance di NTT DATA UK&I, ha commentato: “Un singolo benchmark potrebbe non essere il modo giusto per catturare la complessità dei sistemi di IA, e aspettarsi che lo faccia rischia di ridurre i progressi a un gioco di numeri piuttosto che a una misura della responsabilità del mondo reale. Ciò che conta di più è una valutazione coerente rispetto a principi chiari che garantiscano che la tecnologia sia al servizio delle persone e del progresso.
“Una buona metodologia, come quella definita dalla norma ISO/IEC 42001:2023, riflette questo equilibrio attraverso cinque principi fondamentali: responsabilità, equità, trasparenza, sicurezza e riparazione. La responsabilità stabilisce la titolarità e la responsabilità di qualsiasi sistema di IA che viene implementato. La trasparenza e l’equità guidano le decisioni verso risultati etici e spiegabili. La sicurezza e la privacy non sono negoziabili, in quanto impediscono un uso improprio e rafforzano la fiducia del pubblico. Il ricorso e la contestabilità forniscono un meccanismo vitale per la supervisione, assicurando che le persone possano contestare e correggere i risultati quando necessario.
“Il vero progresso nell’IA dipende dalla collaborazione che unisce la visione del governo, la curiosità del mondo accademico e l’impegno pratico dell’industria. Quando le partnership sono sostenute da un dialogo aperto e gli standard condivisi prendono piede, si crea la trasparenza necessaria per infondere fiducia nei sistemi di IA. L’innovazione responsabile si baserà sempre su una cooperazione che rafforza la supervisione e mantiene viva l’ambizione”
Le otto raccomandazioni del documento forniscono una lista di controllo pratica per tutte le aziende che desiderano creare i propri benchmark e valutazioni interne sull’IA, allineandosi all’approccio basato sui principi.
- Definisci il tuo fenomeno: Prima di testare i modelli, le organizzazioni devono innanzitutto creare una “definizione precisa e operativa del fenomeno da misurare”. Cosa significa una risposta “utile” nel contesto del tuo servizio clienti? Cosa significa “accurata” per i tuoi report finanziari?
- Costruisci un set di dati rappresentativo: Il benchmark più valido è quello costruito a partire dai tuoi dati. Il documento invita gli sviluppatori a “costruire un set di dati rappresentativo per l’attività”. Ciò significa utilizzare elementi di attività che riflettono gli scenari, i formati e le sfide del mondo reale che i tuoi dipendenti e clienti devono affrontare.
- Conduci un’analisi degli errori: Vai oltre il punteggio finale. Il rapporto raccomanda ai team di “condurre un’analisi qualitativa e quantitativa delle modalità di errore più comuni”. L’analisi dei motivi per cui un modello fallisce è più istruttiva della semplice conoscenza del suo punteggio. Se i suoi fallimenti riguardano tutti argomenti oscuri e a bassa priorità, può essere accettabile; se invece fallisce nei casi d’uso più comuni e di maggior valore, quel singolo punteggio diventa irrilevante.
- Giustificare la validità: Infine, i team devono “giustificare la rilevanza del benchmark per il fenomeno con applicazioni reali”. Ogni valutazione deve essere accompagnata da una chiara motivazione che spieghi perché questo specifico test è un valido indicatore del valore aziendale.
La corsa all’implementazione dell’IA generativa sta spingendo le organizzazioni a muoversi più velocemente di quanto le loro strutture di governance possano fare. Questo rapporto mostra che gli stessi strumenti utilizzati per misurare i progressi sono spesso difettosi. L’unica strada affidabile per il futuro è smettere di fidarsi dei benchmark generici sull’IA e iniziare a “misurare ciò che conta” per la tua azienda.



