Lo sviluppatore cinese di AI, SenseTime, ha presentato il suo modello multimodale aggiornato SenseNova 5.5 e sostiene che rappresenta lo stato dell’arte.
Il modello aggiornato arriva a pochi mesi dal rilascio di SenseNova 5, che secondo SenseTime era alla pari con GPT-4 Turbo.
L’aggiornamento del parametro 600B di SenseNova 5.5 rappresenta un miglioramento del 30% delle prestazioni complessive.
I punteggi dei benchmark rilasciati dall’azienda mostrano che il suo modello batte GPT-4o e i modelli Claude Sonnet 3.5 di Anthropic.
I benchmark in cui SenseNova 5.5 eccelle sono quelli tipicamente utilizzati per i modelli cinesi. Se avessero usato i benchmark GPQA, Humaneval o Math avremmo potuto fare un confronto più equo, ma anche in questo caso i dati sono impressionanti.

SenseTime ha anche presentato SenseNova 5o, il primo modello multimodale in tempo reale della Cina in grado di elaborare testo, immagini, audio e video.
La demo di SenseNova 5o che ha interagito sul palco ha mostrato le stesse prestazioni della demo di GPT-4o, su cui stiamo ancora aspettando di mettere le mani.
SenseTime afferma che le interazioni di SenseNova 5o sono “alla pari con le capacità di interazione in streaming di GPT-4o”
Claude 3.5/GPT-4oを超える生成AI、SenseNova 5.5が発表されました。
また、マルチモーダルモデル、SenseNova 5oも同時に発表されたようです。SenseNova 5.0と比較してパフォーマンスが30%向上し、数学や英語を中心に多くのコア指標がGPT-4oの標準を上回っているとのこと。pic.twitter.com/H1u98SFVwX
– 江藤圭一|Radineer (@RadineerE10) 8 luglio 2024
L’azienda ha anche presentato una versione “Lite” di SenseNova 5.5, un modello cloud-to-edge a basso costo destinato a essere eseguito sul dispositivo.
SenseTime afferma che il suo modello edge-side costerà solo 9,90 RMB all’anno per dispositivo, ma non ha fornito dati sulle prestazioni.
Nell’ambito di SenseNova 5.5, SenseTime ha rilasciato anche Vimi, un generatore di video avatar AI controllabile.
Vimi è in grado di generare video della durata massima di un minuto utilizzando una singola foto come suggerimento. Inoltre, permette di controllare con precisione le espressioni facciali e i movimenti della parte superiore del corpo di un avatar.
さらに
・音声
・テキスト
・画像
・動画
を処理できるリアルタイム・マルチモーダルモデル、SenseNova5oも公開pic.twitter.com/CKs0JyaH1m– ChatGPT × AIツール (@chatgptair) 9 luglio 2024
L’uscita di OpenAI dalla Cina
In linea con le sanzioni statunitensi sulle esportazioni di tecnologia in Cina, OpenAI bloccherà l’accesso API ai suoi strumenti e servizi per gli utenti in Cina.
Il governo cinese blocca già ChatGPT, ma gli utenti del paese sono riusciti ad aggirare il firewall del governo utilizzando delle VPN. OpenAI non ha spiegato il motivo, ma da oggi bloccherà questo workaround.
Ciò ha provocato un’impennata di aziende cinesi alla ricerca di alternative ai modelli di OpenAI. SenseTime ha annunciato il lancio del suo programma “Project $0 Go” per attirare gli utenti sulla sua piattaforma.
Si tratta di un pacchetto gratuito e completo per aiutare i nuovi utenti aziendali a migrare dalle piattaforme di OpenAI a SenseTime. Include un credito di 50 milioni di token e servizi di consulenza per la migrazione delle API.
Anche altri fornitori di modelli cinesi hanno cercato di trarre profitto dall’uscita di OpenAI. Baidu, Zhipu e Tencent hanno offerto tra i 50 e i 150 milioni di token come incentivo per la migrazione alle loro piattaforme.
Ironia della sorte, l’inasprimento delle sanzioni statunitensi e l’uscita di OpenAI dalla Cina probabilmente favoriranno i progressi dell’IA nazionale, in quanto le aziende cinesi capitalizzeranno le entrate che, fino ad ora, sarebbero andate agli Stati Uniti.
I modelli SenseNova di SenseTime e Tongyi Qianwen di Alibaba stanno registrando un’impennata nei download e nel coinvolgimento dei clienti.
Man mano che gli sviluppatori cinesi rendono pubbliche le loro funzioni multimodali, c’è da chiedersi quanta pazienza avranno gli utenti americani.
Aspetteranno che OpenAI e Google passino dalla demo al prodotto o vedranno gli utenti americani adottare i modelli cinesi.



