Galileo, azienda leader nello sviluppo di IA generativa per applicazioni aziendali, ha pubblicato il suo ultimo Hallucination Index.
Il quadro di valutazione – che si concentra sulla Retrieval Augmented Generation (RAG) – ha valutato 22 LLM Gen AI di spicco di attori importanti come OpenAI, Anthropic, Google e Meta. L’indice di quest’anno si è ampliato in modo significativo, con l’aggiunta di 11 nuovi modelli che riflettono la rapida crescita dei LLM open-source e closed-source negli ultimi otto mesi.
Vikram Chatterji, CEO e co-fondatore di Galileo, ha dichiarato: “Nell’attuale panorama dell’IA in rapida evoluzione, gli sviluppatori e le aziende si trovano di fronte a una sfida cruciale: come sfruttare la potenza dell’IA generativa bilanciando costi, precisione e affidabilità”. Gli attuali benchmark sono spesso basati su casi d’uso accademici, piuttosto che su applicazioni reali”.
L’indice ha utilizzato la metrica di valutazione proprietaria di Galileo, l’aderenza al contesto, per verificare le imprecisioni di output su diverse lunghezze di input, da 1.000 a 100.000 token. Questo approccio mira ad aiutare le aziende a prendere decisioni informate sul bilanciamento tra prezzo e prestazioni nelle loro implementazioni di IA.
I risultati principali dell’indice includono:
- Claude 3.5 Sonnetdi Anthropic è risultato il modello con le migliori prestazioni complessive, ottenendo un punteggio quasi perfetto negli scenari di breve, medio e lungo periodo.
- Gemini 1.5 Flashdi Google si è classificato come il modello più performante in termini di economicità, offrendo ottime prestazioni in tutti i compiti.
- Qwen2-72B-Instruct di Alibaba si è distinto come il miglior modello open-source, eccellendo in particolare negli scenari di breve e medio contesto.
L’indice ha inoltre evidenziato diverse tendenze nel panorama degli LLM:
- Imodelli open-source stanno rapidamente colmando il divario con le loro controparti closed-source, offrendo migliori prestazioni di allucinazione a costi inferiori.
- Gli attuali LLM RAG dimostrano miglioramenti significativi nella gestione di contesti di lunghezza elevata senza sacrificare la qualità o l’accuratezza.
- Imodelli più piccoli a volte superano quelli più grandi, suggerendo che una progettazione efficiente può essere più importante della scala.
- L’emergere di modelli di grande successo al di fuori degli Stati Uniti, come Mistral-large di Mistral e qwen2-72b-instruct di Alibaba, indica una crescente competizione globale nello sviluppo di LLM.
Mentre i modelli closed-source come Claude 3.5 Sonnet e Gemini 1.5 Flash mantengono il loro vantaggio grazie ai dati di formazione proprietari, l’indice rivela che il panorama si sta evolvendo rapidamente. La performance di Google è stata particolarmente degna di nota: il suo modello open-source Gemma-7b ha ottenuto scarsi risultati, mentre il suo Gemini 1.5 Flash, closed-source, si è sempre posizionato vicino ai primi posti.
Poiché l’industria dell’IA continua a confrontarsi con le allucinazioni, che rappresentano un ostacolo importante per i prodotti di IA Gen pronti per la produzione, l’Hallucination Index di Galileo fornisce indicazioni preziose per le aziende che cercano di adottare il modello giusto per le loro esigenze specifiche e i loro vincoli di budget.
Vedi anche: I senatori interrogano OpenAI su sicurezza e pratiche di lavoro

Vuoi saperne di più sull’AI e sui Big Data dai leader del settore? Scopri l’ AI & Big Data Expo che si terrà ad Amsterdam, in California e a Londra. L’evento completo è in concomitanza con altri eventi importanti come Intelligent Automation Conference, BlockX, Digital Transformation Week e Cyber Security & Cloud Expo.
Scopri gli altri eventi e i webinar sulla tecnologia aziendale organizzati da TechForge qui.
The post Da Anthropic a Google: Chi sta vincendo contro le allucinazioni dell’AI? appeared first on AI News.



