Google DeepMind ha rilasciato Gecko, un nuovo benchmark per valutare in modo completo i modelli AI text-to-image (T2I).
Negli ultimi due anni, abbiamo visto generatori di immagini AI come DALL-E e Midjourney sono migliorati progressivamente con ogni versione rilasciata.
Tuttavia, decidere quale dei modelli sottostanti utilizzati da queste piattaforme sia il migliore è stato in gran parte soggettivo e difficile da valutare.
Affermare che un modello è “migliore” di un altro non è così semplice. Modelli diversi eccellono in vari aspetti della generazione di immagini. Uno può essere bravo nel rendering del testo, mentre un altro può essere migliore nell’interazione con gli oggetti.
Una delle sfide principali che i modelli T2I devono affrontare è quella di seguire ogni dettaglio del messaggio e di far sì che si rifletta accuratamente nell’immagine generata.
Con Gecko, i ricercatori DeepMind ricercatori hanno creato un benchmark che valuta le capacità dei modelli T2I in modo simile a quello degli esseri umani.
Set di abilità
I ricercatori hanno innanzitutto definito un set completo di abilità rilevanti per la generazione di T2I. Queste includono la comprensione dello spazio, il riconoscimento delle azioni, la resa del testo e altre ancora. Hanno poi suddiviso queste abilità in sotto-abilità più specifiche.
Ad esempio, per quanto riguarda la resa del testo, le sotto-abilità potrebbero includere la resa di diversi font, colori o dimensioni del testo.
Un LLM è stato poi utilizzato per generare dei prompt per testare le capacità del modello T2I su una specifica abilità o sotto-abilità.
In questo modo, i creatori di un modello T2I possono individuare non solo quali abilità sono impegnative, ma anche a quale livello di complessità un’abilità diventa impegnativa per il loro modello.

Valutazione umana e automatica
Gecko misura anche la precisione con cui un modello T2I segue tutti i dettagli di una richiesta. Anche in questo caso, è stato utilizzato un LLM per isolare i dettagli chiave di ogni richiesta di input e quindi generare una serie di domande relative a tali dettagli.
Queste domande possono essere sia semplici e dirette sugli elementi visibili dell’immagine (ad esempio, “C’è un gatto nell’immagine?”) sia domande più complesse che verificano la comprensione della scena o le relazioni tra gli oggetti (ad esempio, “Il gatto è seduto sopra il libro?”).
Un modello di risposta alle domande visive (VQA) analizza quindi l’immagine generata e risponde alle domande per verificare l’accuratezza con cui il modello T2I allinea l’immagine di output a una richiesta di input.
I ricercatori hanno raccolto oltre 100.000 annotazioni umane in cui i partecipanti hanno assegnato un punteggio a un’immagine generata in base all’allineamento dell’immagine a criteri specifici.
Agli esseri umani è stato chiesto di prendere in considerazione un aspetto specifico della richiesta di input e di assegnare un punteggio all’immagine su una scala da 1 a 5 in base all’allineamento con la richiesta.
Utilizzando le valutazioni annotate dall’uomo come gold standard, i ricercatori hanno potuto confermare che la loro metrica di autovalutazione “è meglio correlata alle valutazioni umane rispetto alle metriche esistenti per il nostro nuovo set di dati”
Il risultato è un sistema di benchmarking in grado di attribuire numeri a fattori specifici che rendono buona o meno un’immagine generata.
In sostanza, Gecko assegna un punteggio all’immagine in uscita in modo molto simile a come noi decidiamo intuitivamente se siamo soddisfatti o meno dell’immagine generata.
Qual è il miglior modello di testo-immagine?
Nel loro articolo, i ricercatori hanno concluso che il modello Muse di Google batte Stable Diffusion 1.5 e SDXL nel benchmark Gecko. Forse sono di parte, ma i numeri non mentono.



