I ricercatori di NVIDIA presentano nuovi modelli e tecniche di AI generativa visiva alla conferenza Computer Vision and Pattern Recognition (CVPR) che si tiene questa settimana a Seattle. I progressi riguardano aree come la generazione di immagini personalizzate, l’editing di scene 3D, la comprensione del linguaggio visivo e la percezione di veicoli autonomi.
“L’intelligenza artificiale, e l’IA generativa in particolare, rappresenta un progresso tecnologico fondamentale”, ha dichiarato Jan Kautz, VP della ricerca sull’apprendimento e la percezione di NVIDIA.
“Al CVPR, NVIDIA Research sta condividendo il modo in cui stiamo spingendo i confini di ciò che è possibile – dai potenti modelli di generazione delle immagini che potrebbero potenziare i creatori professionisti al software di guida autonoma che potrebbe aiutare ad abilitare le auto a guida autonoma di prossima generazione.”
Tra gli oltre 50 progetti di ricerca NVIDIA che verranno presentati, due articoli sono stati selezionati come finalisti per i Best Paper Awards del CVPR – uno che esplora le dinamiche di formazione dei modelli di diffusione e un altro sulle mappe ad alta definizione per le auto a guida autonoma.
Inoltre, NVIDIA ha vinto il percorso End-to-End Driving at Scale della CVPR Autonomous Grand Challenge, superando oltre 450 partecipanti a livello globale. Questo traguardo dimostra il lavoro pionieristico di NVIDIA nell’utilizzo dell’intelligenza artificiale generativa per la creazione di modelli completi di veicoli a guida autonoma, che le è valso anche un Innovation Award da parte del CVPR.
Uno dei progetti di ricerca più importanti è JeDi, una nuova tecnica che consente ai creatori di personalizzare rapidamente i modelli di diffusione – l’approccio principale per la generazione di testo-immagine – per rappresentare oggetti o personaggi specifici utilizzando solo alcune immagini di riferimento, anziché il processo di messa a punto su set di dati personalizzati che richiede molto tempo.
Un’altra scoperta è FoundationPose, un nuovo modello di fondazione in grado di comprendere e tracciare istantaneamente la posa 3D degli oggetti nei video senza addestramento per oggetto. Ha stabilito un nuovo record di prestazioni e potrebbe sbloccare nuove applicazioni di AR e robotica.
I ricercatori di NVIDIA hanno anche presentato NeRFDeformer, un metodo per modificare la scena 3D catturata da un Neural Radiance Field (NeRF) usando una singola istantanea 2D, invece di dover rianimare manualmente le modifiche o ricreare interamente il NeRF. Questo potrebbe semplificare l’editing di scene 3D per applicazioni di grafica, robotica e gemellaggio digitale.
Sul fronte del linguaggio visivo, NVIDIA ha collaborato con il MIT per sviluppare VILA, una nuova famiglia di modelli di linguaggio visivo che raggiunge prestazioni all’avanguardia nella comprensione di immagini, video e testi. Grazie a capacità di ragionamento migliorate, VILA è in grado di comprendere anche i meme di Internet combinando la comprensione visiva e linguistica.
La ricerca di NVIDIA sull’intelligenza artificiale visiva abbraccia numerosi settori, tra cui oltre una dozzina di articoli che esplorano nuovi approcci per la percezione, la mappatura e la pianificazione di veicoli autonomi. Sanja Fidler, VP del team di ricerca AI di NVIDIA, presenterà il potenziale dei modelli linguistici di visione per le auto a guida autonoma.
L’ampiezza della ricerca di NVIDIA sul CVPR esemplifica come l’IA generativa possa potenziare i creatori, accelerare l’automazione nel settore manifatturiero e sanitario e far progredire l’autonomia e la robotica.



