OpenAI ha appena presentato il suo nuovo modello di base di punta, GPT-4o, con incredibili capacità di riconoscimento del discorso e traduzione.
Come ha affermato lo stesso CEO Sam Altman, sapevamo che l’ultimo “aggiornamento primaverile” di OpenAI non era correlato a GPT-5 o alla ricerca in campo IA.
Ma alle 10 a.m. PT di oggi, centinaia di migliaia di persone hanno seguito la presentazione in diretta del nuovo modello, mentre il Chief Technology Officer (CTO) Mira Murati ne dimostrava i vantaggi rispetto al suo predecessore, GPT-4.
Le principali novità dell’evento includono:
- GPT-4o (la lettera o sta per “omni”) intende sostituire GPT-4, con OpenAI che lo definisce il suo nuovo modello di base di punta.
- Sebbene molto simile al GPT-4, GPT-4o offre capacità di elaborazione audiovisiva e multilingue superiori. Può elaborare e tradurre audio quasi in tempo reale.
- OpenAI sta rendendo GPT-4o disponibile gratuitamente, con dei limiti. Gli utenti Pro continuano ad avere priorità e un limite maggiore di messaggi.
- OpenAI sta inoltre rilasciando una versione desktop di ChatGPT, inizialmente solo per Mac, che è disponibile immediatamente.
- Anche i GPT personalizzati diventeranno accessibili agli utenti gratuiti.
- GPT-4o e le sue funzionalità vocali verranno implementate lentamente nelle prossime settimane e mesi.
GPT-4o e la traduzione audio in tempo reale
La notizia che ha colpito tutti è l’impressionante elaborazione e traduzione audio di GPT-4o, che funzionano quasi in tempo reale.
Le dimostrazioni hanno mostrato l’IA impegnata in conversazioni vocali sorprendentemente naturali, offrendo traduzioni immediate, raccontando storie e fornendo consigli di programmazione.
Ad esempio, il modello è in grado di analizzare un’immagine di un menù in lingua straniera, tradurlo e fornire intuizioni culturali e raccomandazioni.
OpenAI ha appena dimostrato il suo nuovo modello GPT-4o che effettua traduzioni in tempo reale ???? pic.twitter.com/Cl0gp9v3kN
— Tom Warren (@tomwarren) 13 maggio 2024
Può anche riconoscere le emozioni attraverso la respirazione, le espressioni e altri segnali visivi.
Clip di conversazione in tempo reale con GPT4-o in esecuzione sull’app ChatGPT
NOVITÀ: Invece di trasformare solo il DISCORSO in testo, GPT-4o può anche comprendere e etichettare altre caratteristiche dell’audio, come la RESPIRAZIONE e l’EMOZIONE. Non sono sicuro di come ciò sia espresso nella risposta del modello.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
— Andrew Gao (@itsandrewgao) 13 maggio 2024
Le competenze di riconoscimento emotivo di GPT-4o probabilmente attireranno controversie una volta dissipata l’euforia iniziale.
Un’IA emotionalmente consapevole potrebbe sviluppare potenzialmente usi malvagi che si basano sulla mimesi umana, come i deep fake, l’ingegneria sociale, ecc.
Un’altra abilità impressionante dimostrata dal team è l’assistenza alla programmazione in tempo reale fornita tramite voce.
Con l’app desktop GPT-4o/ChatGPT, puoi avere un amico di programmazione (cerchio nero) che parla con te e vede ciò che vedi! #openai thread delle novità! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
— Andrew Gao (@itsandrewgao) 13 maggio 2024
Una dimostrazione ha perfino visto due istanze del modello cantare l’una all’altra.
Questa dimostrazione di due GPT-4o che cantano l’una all’altra è una delle cose più pazzesche che abbia mai visto. pic.twitter.com/UXFfbIpuF6
— Matt Shumer (@mattshumer_) 13 maggio 2024
L’obiettivo generale delle dimostrazioni di OpenAI è quello di rendere la multimodalità dell’IA realmente utile in scenari quotidiani, sfidando nel processo strumenti come Google Translate.
Un altro punto chiave è che queste dimostrazioni sono veritiere. OpenAI ha sottolineato che “Tutti i video in questa pagina sono a velocità reale 1x”, forse alludendo a Google, che ha pesantemente modificato il suo video di dimostrazione di Gemini per esagerare le sue competenze multi-modal.
Con GPT-4o, le applicazioni IA multimodali potrebbero passare da una novità sepolta in profondità nelle interfacce IA a qualcosa con cui gli utenti medi possono interagire quotidianamente.
Nonostante la dimostrazione fosse impressionante, è pur sempre una dimostrazione, e saranno i risultati degli utenti “comuni” a rivelare realmente quanto siano competenti queste funzionalità.
Oltre all’elaborazione e alla traduzione vocale in tempo reale, che stanno assorbendo tutto il fascio di luce, il fatto che



