ai marketing italia

la prima agenzia dedicata a far crescere la tua pmi con l'intelligenza artificiale

Samsung analizza la produttività reale dei modelli AI aziendali

Samsung sta superando i limiti dei benchmark esistenti per valutare meglio la produttività reale dei modelli di IA in ambito aziendale. Il nuovo sistema, sviluppato da Samsung Research e denominato TRUEBench, mira a risolvere la crescente disparità tra le prestazioni teoriche dell’IA e la sua effettiva utilità sul posto di lavoro.

Mentre le aziende di tutto il mondo accelerano l’adozione di modelli linguistici di grandi dimensioni (LLM) per migliorare le loro operazioni, è emersa una sfida: come valutare accuratamente la loro efficacia. Molti benchmark esistenti si concentrano su test accademici o di conoscenza generale, spesso limitati all’inglese e a semplici formati di domande e risposte. Questo ha creato una lacuna che lascia le aziende senza un metodo affidabile per valutare le prestazioni di un modello di IA in compiti aziendali complessi, multilingue e ricchi di contesto.

Il TRUEBench di Samsung, acronimo di Trustworthy Real-world Usage Evaluation Benchmark, è stato sviluppato per colmare questa lacuna. Fornisce una suite completa di metriche che valutano i LLM sulla base di scenari e compiti direttamente legati agli ambienti aziendali del mondo reale. Il benchmark si basa sull’ampio uso interno di Samsung dei modelli di intelligenza artificiale, garantendo che i criteri di valutazione siano basati sulle reali esigenze del luogo di lavoro.

Il framework valuta funzioni aziendali comuni come la creazione di contenuti, l’analisi dei dati, la sintesi di lunghi documenti e la traduzione di materiali. Queste sono suddivise in 10 categorie distinte e 46 sottocategorie, che forniscono una visione granulare delle capacità di produttività di un’IA.

“Samsung Research apporta una profonda competenza e un vantaggio competitivo grazie alla sua esperienza nell’IA del mondo reale”, ha dichiarato Paul (Kyungwhoon) Cheun, CTO della divisione DX di Samsung Electronics e responsabile di Samsung Research. “Ci aspettiamo che TRUEBench stabilisca degli standard di valutazione per la produttività”

Per affrontare i limiti dei vecchi benchmark, TRUEBench si basa su una serie di 2.485 test diversi che abbracciano 12 lingue diverse e supportano scenari interlinguistici. Questo approccio multilingue è fondamentale per le aziende globali in cui le informazioni circolano in diverse regioni. Gli stessi materiali di test riflettono la varietà delle richieste sul posto di lavoro, che vanno da brevi istruzioni di soli otto caratteri alla complessa analisi di documenti che superano i 20.000 caratteri.

Samsung ha riconosciuto che in un contesto aziendale reale, l’intento dell’utente non è sempre esplicitamente dichiarato nella richiesta iniziale. Il benchmark è quindi progettato per valutare la capacità di un modello di intelligenza artificiale di comprendere e soddisfare queste esigenze aziendali implicite, andando oltre la semplice accuratezza e passando a una misura più sfumata di utilità e pertinenza.

Per raggiungere questo obiettivo, Samsung Research ha sviluppato un processo di collaborazione unico tra esperti umani e IA per creare i criteri di valutazione della produttività. Inizialmente, gli annotatori umani stabiliscono gli standard di valutazione per una determinata attività. Un’intelligenza artificiale esamina poi questi standard, verificando la presenza di potenziali errori, contraddizioni interne o vincoli inutili che potrebbero non riflettere un’aspettativa realistica dell’utente. In seguito al feedback dell’IA, gli annotatori umani perfezionano i criteri. Questo ciclo iterativo garantisce che gli standard di valutazione finali siano precisi e riflettano un risultato di alta qualità.

Questo processo di verifica incrociata fornisce un sistema di valutazione automatizzato che assegna un punteggio alle prestazioni dei LLM. Utilizzando l’intelligenza artificiale per applicare questi criteri raffinati, il sistema riduce al minimo i pregiudizi soggettivi che possono verificarsi con l’assegnazione di punteggi esclusivamente umani, garantendo coerenza e affidabilità in tutti i test. TRUEBench impiega anche un modello di punteggio rigoroso in cui un modello AI deve soddisfare tutte le condizioni associate a un test per ricevere un voto positivo. Questo approccio “tutto o niente” per le singole condizioni consente di valutare in modo più dettagliato ed esigente le prestazioni dei modelli di IA nelle diverse attività aziendali.

Per aumentare la trasparenza e incoraggiare un’adozione più ampia, Samsung ha reso pubblici i campioni di dati e le classifiche di TRUEBench sulla piattaforma open-source globale Hugging Face. Questo permette a sviluppatori, ricercatori e aziende di confrontare direttamente le prestazioni di produttività di un massimo di cinque diversi modelli di IA contemporaneamente. La piattaforma fornisce una panoramica chiara e immediata di come le varie IA si posizionano l’una rispetto all’altra in compiti pratici.

Al momento della stesura di questo articolo, ecco i 20 modelli migliori per classifica generale in base al benchmark AI di Samsung:

Current top 20 models by overall ranking based on Samsung’s AI benchmark that assesses the real-world productivity of AI models in enterprise settings.

I dati completi pubblicati includono anche la lunghezza media delle risposte generate dall’IA. Ciò consente di confrontare simultaneamente non solo le prestazioni ma anche l’efficienza, un aspetto fondamentale per le aziende che valutano i costi operativi e la velocità.

Con il lancio di TRUEBench, Samsung non si limita a rilasciare un altro strumento, ma punta a cambiare il modo in cui il settore pensa alle prestazioni dell’IA. Spostando l’obiettivo dalla conoscenza astratta alla produttività tangibile, il benchmark di Samsung potrebbe aiutare le aziende a prendere decisioni migliori su quali modelli di IA aziendali integrare nei loro flussi di lavoro e a colmare il divario tra il potenziale di un’IA e il suo valore comprovato.

Leggi di più su www.artificialintelligence-news.com

altre news