ai marketing italia

la prima agenzia dedicata a far crescere la tua pmi con l'intelligenza artificiale

Tutto ciò che devi sapere sul nuovo modello di punta di OpenAI, GPT-4o

OpenAI ha appena presentato il suo nuovo modello di base di punta, GPT-4o, con incredibili capacità di riconoscimento del discorso e traduzione.

Come ha affermato lo stesso CEO Sam Altman, sapevamo che l’ultimo “aggiornamento primaverile” di OpenAI non era correlato a GPT-5 o alla ricerca in campo IA.

Ma alle 10 a.m. PT di oggi, centinaia di migliaia di persone hanno seguito la presentazione in diretta del nuovo modello, mentre il Chief Technology Officer (CTO) Mira Murati ne dimostrava i vantaggi rispetto al suo predecessore, GPT-4.

Le principali novità dell’evento includono:

  • GPT-4o (la lettera o sta per “omni”) intende sostituire GPT-4, con OpenAI che lo definisce il suo nuovo modello di base di punta.
  • Sebbene molto simile al GPT-4, GPT-4o offre capacità di elaborazione audiovisiva e multilingue superiori. Può elaborare e tradurre audio quasi in tempo reale.
  • OpenAI sta rendendo GPT-4o disponibile gratuitamente, con dei limiti. Gli utenti Pro continuano ad avere priorità e un limite maggiore di messaggi.
  • OpenAI sta inoltre rilasciando una versione desktop di ChatGPT, inizialmente solo per Mac, che è disponibile immediatamente.
  • Anche i GPT personalizzati diventeranno accessibili agli utenti gratuiti.
  • GPT-4o e le sue funzionalità vocali verranno implementate lentamente nelle prossime settimane e mesi.

GPT-4o e la traduzione audio in tempo reale

La notizia che ha colpito tutti è l’impressionante elaborazione e traduzione audio di GPT-4o, che funzionano quasi in tempo reale.

Le dimostrazioni hanno mostrato l’IA impegnata in conversazioni vocali sorprendentemente naturali, offrendo traduzioni immediate, raccontando storie e fornendo consigli di programmazione.

Ad esempio, il modello è in grado di analizzare un’immagine di un menù in lingua straniera, tradurlo e fornire intuizioni culturali e raccomandazioni. 

Può anche riconoscere le emozioni attraverso la respirazione, le espressioni e altri segnali visivi. 

Le competenze di riconoscimento emotivo di GPT-4o probabilmente attireranno controversie una volta dissipata l’euforia iniziale.

Un’IA emotionalmente consapevole potrebbe sviluppare potenzialmente usi malvagi che si basano sulla mimesi umana, come i deep fake, l’ingegneria sociale, ecc. 

Un’altra abilità impressionante dimostrata dal team è l’assistenza alla programmazione in tempo reale fornita tramite voce.

Una dimostrazione ha perfino visto due istanze del modello cantare l’una all’altra.

L’obiettivo generale delle dimostrazioni di OpenAI è quello di rendere la multimodalità dell’IA realmente utile in scenari quotidiani, sfidando nel processo strumenti come Google Translate. 

Un altro punto chiave è che queste dimostrazioni sono veritiere. OpenAI ha sottolineato che “Tutti i video in questa pagina sono a velocità reale 1x”, forse alludendo a Google, che ha pesantemente modificato il suo video di dimostrazione di Gemini per esagerare le sue competenze multi-modal.

Con GPT-4o, le applicazioni IA multimodali potrebbero passare da una novità sepolta in profondità nelle interfacce IA a qualcosa con cui gli utenti medi possono interagire quotidianamente.

Nonostante la dimostrazione fosse impressionante, è pur sempre una dimostrazione, e saranno i risultati degli utenti “comuni” a rivelare realmente quanto siano competenti queste funzionalità.

Oltre all’elaborazione e alla traduzione vocale in tempo reale, che stanno assorbendo tutto il fascio di luce, il fatto che

Leggi di più su dailyai.com

altre news