L’azienda tecnologica cinese Kuaishou Technology ha rilasciato un generatore di video da testo (T2V) chiamato Kling che potrebbe rivaleggiare con Sora di OpenAI.
A febbraio, OpenAI ci ha stupito con i video dimostrativi diSora che ci hanno fatto cercare freneticamente il pulsante “iscriviti”. Quattro mesi dopo, stiamo ancora aspettando il rilascio di Sora senza sapere quando potrebbe avvenire.
Kuaishou, azienda con sede a Pechino, sviluppa piattaforme di condivisione di contenuti che, a suo dire, rendono “la produzione, la distribuzione e il consumo di contenuti facili e veloci” La piattaforma di video brevi dell’azienda, chiamata anch’essa Kuaishou, è seconda solo a TikTok in termini di utenti attivi medi giornalieri.
Produrre contenuti per le sue piattaforme sarebbe molto più facile se non dovesse affidarsi a contenuti generati dall’uomo. Questa potrebbe essere una delle motivazioni alla base dello sviluppo del suo strumento T2V.
Kling trasforma i messaggi di testo in video coerenti dal punto di vista temporale e spaziale e di grande effetto. Kuaishou afferma che Kling può generare video fino a 2 minuti con una risoluzione di 1080p e 30 fotogrammi al secondo.
Si tratta di un minuto in più rispetto a quanto OpenAI afferma che Sora può produrre. L’altro grande elemento di differenziazione è che Kling è stato rilasciato al pubblico mentre Sora è ancora segreto. Se sei in Cina, o se hai un numero di cellulare cinese e una VPN, puoi richiedere di provare l’applicazione fin da ora.
Come Sora, Kling utilizza un’architettura a trasformatori di diffusione. Inoltre, dispone di una potente tecnologia di ricostruzione 3D del volto e del corpo che può utilizzare un’immagine del corpo intero come suggerimento per generare un video con movimenti fluidi degli arti.
Se ricordi il video un po’ terrificante di Will Smith che mangia gli spaghetti agli albori dei video generati dall’intelligenza artificiale, allora apprezzerai quanto sia sorprendente questo video generato da Kling.
Sora di OpenAI è pazzesco.
Ma KWAI ha appena lanciato un modello simile a Sora chiamato KLING e la gente ne va matta.
Ecco 10 esempi da non perdere:
1. Un uomo cinese si siede a un tavolo e mangia i noodles con le bacchettespic.twitter.com/MIV5IP3fyQ
– Angry Tom (@AngryTomtweets) 6 giugno 2024
La maggior parte degli impressionanti video dimostrativi in cui sono coinvolti molti movimenti sono brevi. I video più lunghi sono più scenografici con meno elementi dinamici, il che potrebbe indicare alcuni limiti dello strumento.
Questa clip di una scena in evoluzione mostrata dalla prospettiva del finestrino di un treno è piuttosto impressionante.
2. Viaggiando in treno, osservo ogni tipo di paesaggio attraverso il finestrinopic.twitter.com/WqF9rlJxbh
– Angry Tom (@AngryTomtweets) 6 giugno 2024
Gli elementi visivi con cui l’intelligenza artificiale ha sempre avuto difficoltà sono le dita, i denti o i movimenti naturali della bocca. Ecco un’impressionante clip che mostra come Kling riesca a gestire questi elementi in modo molto naturale.
3. Un ragazzo cinese con gli occhiali gusta un delizioso cheeseburger con gli occhi chiusi in un fast foodpic.twitter.com/ZOCy0n3gTa
– Angry Tom (@AngryTomtweets) 6 giugno 2024
Il rilascio della versione beta di Kling è in un certo senso un commento sull’approccio all’IA tra Oriente e Occidente. Mentre l’Occidente discute sulla sicurezza dell’IA, sulla privacy e sui pericoli della disinformazione, la Cina procede spedita nello sviluppo. E questo nonostante le sanzioni degli Stati Uniti che cercano di rallentarlo.
Mentre OpenAI cerca di capire come rendere Sora “sicuro” o politicamente corretto, potremmo dover guardare alla Cina per avere uno strumento T2V decente in mancanza di uno prodotto negli Stati Uniti.



