Meta presenta cinque modelli di intelligenza artificiale per l’elaborazione multimodale, la generazione di musica e altro ancora

Meta ha presentato cinque nuovi importanti modelli e ricerche sull’IA, tra cui sistemi multimodali in grado di elaborare sia testo che immagini, modelli linguistici di nuova generazione, generazione di musica, rilevamento del parlato e sforzi per migliorare la diversità nei sistemi di IA.

Questi rilasci provengono dal team Fundamental AI Research (FAIR) di Meta, che da oltre un decennio si concentra sul progresso dell’IA attraverso la ricerca e la collaborazione aperta. Con la rapida innovazione dell’IA, Meta ritiene che la collaborazione con la comunità globale sia fondamentale.

“Condividendo pubblicamente questa ricerca, speriamo di ispirare le iterazioni e, in ultima analisi, di contribuire a far progredire l’IA in modo responsabile”, ha dichiarato Meta.

Chameleon: Elaborazione multimodale di testi e immagini

Tra i rilasci vi sono i componenti chiave dei modelli “Chameleon” di Meta con licenza di ricerca. Chameleon è una famiglia di modelli multimodali in grado di comprendere e generare contemporaneamente testo e immagini, a differenza della maggior parte dei modelli linguistici di grandi dimensioni che sono tipicamente unimodali.

“Proprio come gli esseri umani sono in grado di elaborare parole e immagini contemporaneamente, Chameleon è in grado di elaborare e fornire immagini e testi allo stesso tempo”, ha spiegato Meta. “Chameleon può ricevere in ingresso qualsiasi combinazione di testo e immagini e produrre qualsiasi combinazione di testo e immagini”

I potenziali casi d’uso sono praticamente illimitati, dalla generazione di didascalie creative alla creazione di nuove scene con testo e immagini.

Predizione multi-token per una formazione più rapida dei modelli linguistici

Meta ha anche rilasciato modelli pre-addestrati per il completamento del codice che utilizzano la “predizione multi-token” con una licenza di ricerca non commerciale. L’addestramento tradizionale dei modelli linguistici è inefficiente perché prevede solo la parola successiva. I modelli multi-token possono prevedere simultaneamente più parole future per addestrarsi più velocemente.

“Sebbene l’approccio a una sola parola sia semplice e scalabile, è anche inefficiente. Richiede diversi ordini di grandezza di testo in più rispetto a quello di cui hanno bisogno i bambini per imparare lo stesso livello di fluidità linguistica”, ha detto Meta.

JASCO: Modello di testo-musica migliorato

Per quanto riguarda l’aspetto creativo, JASCO di Meta permette di generare clip musicali a partire dal testo, offrendo un maggiore controllo grazie all’accettazione di input come accordi e battute.

“Mentre i modelli text-to-music esistenti, come MusicGen, si basano principalmente su input testuali per la generazione di musica, il nostro nuovo modello, JASCO, è in grado di accettare diversi input, come accordi o beat, per migliorare il controllo sui risultati musicali generati”, ha spiegato Meta.

AudioSeal: Rilevare il parlato generato dall’intelligenza artificiale

Meta sostiene che AudioSeal è il primo sistema di watermarking audio progettato per rilevare il parlato generato dall’intelligenza artificiale. È in grado di individuare i segmenti specifici generati dall’IA all’interno di clip audio di grandi dimensioni fino a 485 volte più velocemente rispetto ai metodi precedenti.

“AudioSeal viene rilasciato con una licenza commerciale. È solo una delle numerose linee di ricerca responsabile che abbiamo condiviso per aiutare a prevenire l’uso improprio degli strumenti di IA generativa”, ha dichiarato Meta.

Migliorare la diversità tra testo e immagine

Un altro importante rilascio mira a migliorare la diversità dei modelli testo-immagine, che spesso possono presentare pregiudizi geografici e culturali.

Meta ha sviluppato indicatori automatici per valutare le potenziali disparità geografiche e ha condotto un ampio studio su 65.000 annotazioni per capire come le persone percepiscono la rappresentazione geografica a livello globale.

“Questo consente una maggiore diversità e una migliore rappresentazione nelle immagini generate dall’intelligenza artificiale”, ha dichiarato Meta. Il codice e le annotazioni sono stati resi pubblici per aiutare a migliorare la diversità nei modelli generativi.

Condividendo pubblicamente questi modelli rivoluzionari, Meta spera di promuovere la collaborazione e l’innovazione all’interno della comunità dell’IA.

(Foto di Dima Solomin)

Vedi anche: NVIDIA presenta gli ultimi progressi nell’IA visiva

Meta presenta cinque modelli di intelligenza artificiale per l'elaborazione multimodale, la generazione di musica e altro ancora

Vuoi saperne di più sull’IA e sui Big Data dai leader del settore? Dai un’occhiata all’ AI & Big Data Expo che si terrà ad Amsterdam, in California e a Londra. L’evento completo è in concomitanza con altri eventi di spicco come Intelligent Automation Conference, BlockX, Digital Transformation Week e Cyber Security & Cloud Expo.

Scopri gli altri eventi tecnologici aziendali e i webinar di TechForge qui.

Tags: ai, intelligenza artificiale, audioseal, camaleonte, fiera, jasco, meta, meta ai, modelli, generazione musicale, open source, text-to-image

Leggi di più su www.artificialintelligence-news.com

ai marketing italia

la prima agenzia dedicata a far crescere la tua pmi con l'intelligenza artificiale

Meta presenta cinque modelli di intelligenza artificiale per l’elaborazione multimodale, la generazione di musica e altro ancora

Chameleon: Elaborazione multimodale di testi e immagini

Predizione multi-token per una formazione più rapida dei modelli linguistici

JASCO: Modello di testo-musica migliorato

AudioSeal: Rilevare il parlato generato dall’intelligenza artificiale

Migliorare la diversità tra testo e immagine

altre news

OpenAI testa un Ads Manager per le pubblicità su ChatGPT

Marketing 2026: l’integrazione tra AI e infrastruttura cloud

SEI e IBM: l’IA agentica trasforma la finanza operativa

Unisciti al futuro!