Il modello AI di Odyssey trasforma i video in mondi interattivi

Odyssey, un laboratorio di intelligenza artificiale con sede a Londra, ha lanciato un’anteprima di ricerca su un modello che trasforma i video in mondi interattivi. Inizialmente concentrato su modelli di mondi per la produzione di film e videogiochi, il team di Odyssey si è imbattuto in un mezzo di intrattenimento potenzialmente del tutto nuovo.

Il video interattivo generato dal modello AI di Odyssey risponde agli input in tempo reale. Puoi interagire con esso utilizzando la tastiera, il telefono, il controller o eventualmente anche i comandi vocali. I ragazzi di Odyssey lo definiscono una “versione iniziale di Holodeck”

L’intelligenza artificiale sottostante è in grado di generare fotogrammi video dall’aspetto realistico ogni 40 millisecondi. Ciò significa che quando premi un pulsante o fai un gesto, il video risponde quasi istantaneamente, creando l’illusione che tu stia davvero influenzando questo mondo digitale.

secondo Odyssey, “l’esperienza di oggi è come l’esplorazione di un sogno glitch: grezzo, instabile, ma innegabilmente nuovo”. Non stiamo parlando di immagini curate e di qualità da gioco AAA, almeno non ancora.

Non è la solita tecnologia video

Facciamo un po’ i tecnici per un momento. Cosa rende questa tecnologia video interattiva generata dall’intelligenza artificiale diversa, ad esempio, da un normale videogioco o dalla CGI? Tutto si riduce a qualcosa che Odyssey chiama “modello del mondo”

A differenza dei modelli video tradizionali che generano intere clip in una sola volta, i modelli del mondo lavorano fotogramma per fotogramma per prevedere cosa dovrebbe accadere in seguito in base allo stato attuale e agli input dell’utente. È simile al modo in cui i modelli linguistici di grandi dimensioni predicono la parola successiva in una sequenza, ma infinitamente più complesso perché stiamo parlando di fotogrammi video ad alta risoluzione anziché di parole.

“Un modello del mondo è, nella sua essenza, un modello dinamico condizionato dall’azione”, come dice Odyssey. Ogni volta che interagisci, il modello prende in considerazione lo stato attuale, la tua azione e la storia di ciò che è accaduto, quindi genera il fotogramma video successivo di conseguenza.

Il risultato è qualcosa di più organico e imprevedibile di un gioco tradizionale. Non c’è una logica pre-programmata che dice “se un giocatore fa X, allora succede Y”; al contrario, l’IA fa le sue migliori ipotesi su ciò che dovrebbe accadere dopo, basandosi su ciò che ha imparato guardando innumerevoli video.

Odyssey affronta sfide storiche con video generati dall’intelligenza artificiale

Costruire qualcosa di simile non è esattamente una passeggiata. Uno dei maggiori ostacoli ai video interattivi generati dall’intelligenza artificiale è quello di mantenerli stabili nel tempo. Quando si genera ogni fotogramma sulla base di quelli precedenti, i piccoli errori possono aumentare rapidamente (un fenomeno che i ricercatori di AI chiamano “deriva”)

Per affrontare questo problema, Odyssey ha utilizzato quello che definisce un “modello di distribuzione ristretto”: in sostanza, ha pre-addestrato la sua IA su filmati generici e poi l’ha messa a punto su un insieme più ristretto di ambienti. Questo compromesso si traduce in una minore varietà ma in una maggiore stabilità, per evitare che tutto diventi una bizzarra confusione.

L’azienda afferma di aver già fatto “rapidi progressi” sul modello di nuova generazione, che a quanto pare mostra “una gamma più ricca di pixel, dinamiche e azioni”

Far funzionare tutta questa tecnologia AI in tempo reale non è economico. Attualmente, l’infrastruttura che alimenta questa esperienza costa tra 0,80 e 1,60 sterline (1-2) per ora-utente, basandosi su cluster di GPU H100 sparsi negli Stati Uniti e nell’Unione Europea.

Potrebbe sembrare costoso per lo streaming video, ma è notevolmente economico rispetto alla produzione di contenuti tradizionali di giochi o film. Odyssey si aspetta che questi costi diminuiscano ulteriormente man mano che i modelli diventano più efficienti.

Video interattivo: Il prossimo mezzo di narrazione?

Nel corso della storia, le nuove tecnologie hanno dato vita a nuove forme di narrazione, dalle pitture rupestri ai libri, alla fotografia, alla radio, ai film e ai videogiochi. Odyssey ritiene che i video interattivi generati dall’intelligenza artificiale siano il prossimo passo di questa evoluzione.

Se hanno ragione, potremmo trovarci di fronte al prototipo di qualcosa che trasformerà l’intrattenimento, l’istruzione, la pubblicità e molto altro ancora. Immagina video di formazione in cui puoi mettere in pratica le abilità insegnate o esperienze di viaggio in cui puoi esplorare destinazioni dal tuo divano.

L’anteprima di ricerca disponibile ora è ovviamente solo un piccolo passo verso questa visione ed è più una prova di concetto che un prodotto finito. Tuttavia, è un’intrigante anticipazione di ciò che potrebbe essere possibile quando i mondi generati dall’intelligenza artificiale diventeranno parchi giochi interattivi piuttosto che semplici esperienze passive.

Leggi di più su www.artificialintelligence-news.com