Tencent migliora il test dei modelli di AI creativa con un nuovo benchmark

Tencent ha introdotto un nuovo benchmark, ArtifactsBench, che mira a risolvere gli attuali problemi di test dei modelli di intelligenza artificiale creativa.

Ti è mai capitato di chiedere a un’intelligenza artificiale di costruire qualcosa come una semplice pagina web o un grafico e di ricevere qualcosa che funziona ma che ha un’esperienza utente scadente? I pulsanti potrebbero essere nel posto sbagliato, i colori potrebbero stonare o le animazioni risulterebbero goffe. È un problema comune e mette in luce un’enorme sfida nel mondo dello sviluppo dell’intelligenza artificiale: come insegnare a una macchina ad avere buon gusto?

Per molto tempo abbiamo testato i modelli di IA sulla loro capacità di scrivere codice funzionalmente corretto. Questi test potevano confermare l’esecuzione del codice, ma erano completamente “ciechi rispetto alla fedeltà visiva e all’integrità interattiva che definiscono le moderne esperienze utente”

Questo è l’esatto problema che ArtifactsBench è stato progettato per risolvere. Non si tratta tanto di un test quanto di un critico d’arte automatizzato per il codice generato dall’intelligenza artificiale

🚀Emozionato di presentare #ArtifactsBench! Stiamo colmando il divario visivo-interattivo nella valutazione della generazione di codice.

Il nostro benchmark utilizza una nuova pipeline automatizzata e multimodale per valutare gli LLM su 1.825 compiti diversi. Un MLLM-as-Judge valuta gli artefatti visivi, ottenendo un ranking del 94,4%… pic.twitter.com/84xClcnNyS

– Hunyuan (@TencentHunyuan) 9 luglio 2025

Come dovrebbe fare un essere umano

Come funziona il benchmark AI di Tencent? Innanzitutto, a un’intelligenza artificiale viene assegnato un compito creativo da un catalogo di oltre 1.800 sfide, dalla creazione di visualizzazioni di dati e applicazioni web alla realizzazione di mini-giochi interattivi.

Una volta che l’IA genera il codice, ArtifactsBench si mette al lavoro. Costruisce ed esegue automaticamente il codice in un ambiente sicuro e protetto.

Per vedere come si comporta l’applicazione, cattura una serie di screenshot nel tempo. In questo modo può verificare la presenza di elementi come le animazioni, i cambiamenti di stato dopo il clic di un pulsante e altri feedback dinamici dell’utente.

Infine, consegna tutte queste prove – la richiesta originale, il codice dell’intelligenza artificiale e gli screenshot – a un LLM multimodale (MLLM), che funge da giudice.

Questo giudice MLLM non si limita a dare un’opinione vaga, ma utilizza una lista di controllo dettagliata per ogni attività per assegnare un punteggio al risultato in base a dieci diverse metriche. Il punteggio include la funzionalità, l’esperienza utente e persino la qualità estetica. Questo garantisce che il punteggio sia equo, coerente e completo.

La domanda principale è: questo giudice automatico ha davvero buon gusto? I risultati suggeriscono di sì.

Quando le classifiche di ArtifactsBench sono state confrontate con quelle di WebDev Arena, la piattaforma di riferimento in cui gli esseri umani votano le migliori creazioni dell’intelligenza artificiale, hanno ottenuto una coerenza del 94,4%. Si tratta di un enorme balzo in avanti rispetto ai vecchi benchmark automatizzati, che raggiungevano solo il 69,4% di coerenza.

Inoltre, i giudizi del framework hanno mostrato un accordo superiore al 90% con gli sviluppatori umani professionisti.

Tencent valuta la creatività dei migliori modelli di IA con il suo nuovo benchmark

Quando Tencent ha messo alla prova più di 30 dei migliori modelli di IA del mondo, la classifica è stata rivelatrice. Mentre i modelli commerciali di Google(Gemini-2.5-Pro) e Anthropic(Claude 4.0-Sonnet) hanno conquistato la vetta della classifica, i test hanno portato alla luce un aspetto affascinante.

Si potrebbe pensare che un’intelligenza artificiale specializzata nella scrittura di codice sia la migliore in questi compiti. Ma è vero il contrario. La ricerca ha scoperto che “le capacità olistiche dei modelli generalisti spesso superano quelle dei modelli specializzati”

Un modello generico, Qwen-2.5-Instruct, ha effettivamente battuto i suoi fratelli più specializzati, Qwen-2.5-coder (un modello specifico per il codice) e Qwen2.5-VL (un modello specializzato nella visione).

I ricercatori ritengono che questo sia dovuto al fatto che la creazione di un’ottima applicazione visiva non si basa solo sulla codifica o sulla comprensione visiva in modo isolato, ma richiede un mix di competenze.

“Ragionamento robusto, seguire le istruzioni in modo sfumato e un senso implicito dell’estetica del design”, sottolineano i ricercatori, sono abilità vitali. Si tratta di abilità a tutto tondo, quasi simili a quelle umane, che i migliori modelli generalisti stanno iniziando a sviluppare.

Tencent spera che il benchmark ArtifactsBench possa valutare in modo affidabile queste qualità e quindi misurare i progressi futuri nella capacità dell’IA di creare oggetti che non siano solo funzionali, ma che gli utenti vogliano effettivamente utilizzare.

Leggi di più su www.artificialintelligence-news.com