Il modello SAM 2 di Meta consente una segmentazione video accurata in pochi secondi

La divisione di ricerca di Meta ha presentato SAM 2 (Segment Anything Model 2), un sistema di intelligenza artificiale che segna un enorme progresso nell’analisi dei video.

Questo nuovo modello espande le capacità di segmentazione delle immagini del suo predecessore SAM, avventurandosi nel dominio più complesso dei video.

La segmentazione dei video – la capacità di identificare e seguire oggetti specifici in una scena in movimento – è da tempo una sfida per l’intelligenza artificiale.

Mentre gli esseri umani possono seguire senza sforzo un’auto che si muove nel traffico o una persona che cammina in mezzo alla folla, i sistemi di intelligenza artificiale tendono a fare fatica. Questo è un problema enorme per le auto senza conducente e altri veicoli autonomi (AV), che devono seguire gli oggetti 3D in movimento nei loro ambienti.

SAM 2 mira a colmare questo divario, avvicinando la comprensione dei video da parte dell’intelligenza artificiale alla percezione umana.

Il sistema è in grado di identificare e tracciare virtualmente qualsiasi oggetto in un video con un input minimo da parte dell’utente, a volte anche con un solo clic. Questo apre un mondo di possibilità in campi che vanno dall’editing cinematografico alla ricerca scientifica.

Ecco come Meta ha creato e testato SAM 2:

Il team ha creato una tecnica chiamata Promptable Visual Segmentation (PVS), che consente agli utenti di guidare l’intelligenza artificiale con semplici indicazioni su qualsiasi fotogramma del video. Ciò significa che il sistema può adattarsi a un’ampia gamma di scenari, dal seguire una persona specifica in mezzo alla folla al seguire il movimento delle ali di un uccello in volo.
Hanno costruito un modello di architettura che comprende componenti per l’elaborazione di singoli fotogrammi, la memorizzazione di informazioni sugli oggetti nel tempo e la generazione di segmentazioni precise.
Un elemento chiave è il modulo di memoria, che permette a SAM 2 di mantenere un tracking coerente anche quando gli oggetti scompaiono temporaneamente dalla vista.
È stato creato un nuovo enorme set di dati, che contiene oltre 50.000 video e 35 milioni di fotogrammi etichettati, superando i precedenti set di dati di segmentazione video. T
questo set di dati, denominato SA-V, copre un ampio spettro di tipi di oggetti, dimensioni e scenari, migliorando la capacità del modello di generalizzarsi a nuove situazioni.
Il modello è stato sottoposto a un addestramento e a test approfonditi su 17 diversi set di dati video, dai filmati delle telecamere da cruscotto alle immagini mediche.
SAM 2 ha superato i metodi più avanzati in compiti di segmentazione di oggetti video semi-supervisionati, ottenendo un miglioramento medio del 7,5% nei punteggi J&F (una metrica standard per la qualità della segmentazione).

Sopra: La segmentazione di immagini per videoclip complessi segmenta forme diverse in pochi secondi.

Nella produzione cinematografica, SAM 2 potrebbe semplificare il lavoro sugli effetti visivi, risparmiando tempo nella post-produzione
Gli scienziati potrebbero tracciare le cellule nei filmati di microscopia o monitorare i cambiamenti ambientali nelle immagini satellitari
Per gli AV, comprese le auto senza conducente, SAM 2 potrebbe migliorare il rilevamento degli oggetti in scenari di traffico complessi
Gli ambientalisti potrebbero utilizzare SAM 2 per monitorare le popolazioni animali in vaste aree
In ambito AR/VR, potrebbe consentire interazioni più accurate con oggetti virtuali in video live

Fedele all’impegno di Meta per la ricerca aperta, SAM 2 viene rilasciato come software open-source.

Questo include non solo il modello, ma anche il set di dati utilizzato per addestrarlo.

I ricercatori stanno già esplorando modi per gestire video più lunghi, migliorare le prestazioni sui dettagli fini e ridurre la potenza di calcolo necessaria per eseguire il modello.

La maturazione della tecnologia di segmentazione delle immagini trasformerà sicuramente il modo in cui interagiamo con i contenuti video e li analizziamo.

Dal rendere più accessibili complesse attività di editing al consentire nuove forme di analisi visiva, SAM 2 si spinge oltre i confini della manipolazione visiva.

Leggi di più su dailyai.com