OpenAI svela l’API Realtime e altre funzionalità per gli sviluppatori

OpenAI non ha rilasciato nuovi modelli durante l’evento Dev Day, ma le nuove funzionalità dell’API entusiasmeranno gli sviluppatori che vogliono utilizzare i suoi modelli per creare potenti app.

OpenAI ha avuto settimane difficili: il suo CTO, Mira Murati, e altri ricercatori si sono aggiunti alla lista sempre più lunga degli ex dipendenti. L’azienda è sottoposta a una crescente pressione da parte di altri modelli di punta, compresi quelli open-source che offrono agli sviluppatori opzioni più economiche e altamente capaci.

Le novità presentate da OpenAI sono state l’API Realtime (in versione beta), la messa a punto della visione e strumenti per aumentare l’efficienza come il prompt caching e la distillazione dei modelli.

API Realtime

L’API Realtime è la novità più interessante, anche se in versione beta. Consente agli sviluppatori di creare esperienze speech-to-speech a bassa latenza nelle loro app senza utilizzare modelli separati per il riconoscimento vocale e la conversione text-to-speech.

Grazie a questa API, gli sviluppatori possono creare applicazioni che consentono conversazioni in tempo reale con l’intelligenza artificiale, come gli assistenti vocali o gli strumenti di apprendimento linguistico, il tutto attraverso un’unica chiamata API. Non è proprio l’esperienza perfetta che offre la modalità vocale avanzata di GPT-4o, ma ci si avvicina.

Tuttavia, non è economica: costa circa 0,06 dollari al minuto di input audio e 0,24 dollari al minuto di output audio.

La nuova API Realtime di OpenAI è incredibile..

Guarda come ordina 400 fragole chiamando il negozio con twillio. Il tutto con la voce. 🍓🎤 pic.twitter.com/J2BBoL9yFv

– Ty (@FieroTy) 1 ottobre 2024

Messa a punto della visione

La messa a punto della visione all’interno dell’API consente agli sviluppatori di migliorare la capacità dei loro modelli di comprendere e interagire con le immagini. Grazie alla messa a punto di GPT-4o utilizzando le immagini, gli sviluppatori possono creare applicazioni che eccellono in attività come la ricerca visiva o il rilevamento di oggetti.

Questa funzione è già stata sfruttata da aziende come Grab, che ha migliorato l’accuratezza del suo servizio di mappatura mettendo a punto il modello per riconoscere i segnali stradali dalle immagini a livello stradale.

OpenAI ha anche fornito un esempio di come GPT-4o possa generare contenuti aggiuntivi per un sito web dopo essere stato messo a punto per adattarsi stilisticamente ai contenuti esistenti del sito.

Caching dei messaggi

Per migliorare l’efficienza dei costi, OpenAI ha introdotto il prompt caching, uno strumento che riduce i costi e la latenza delle chiamate API utilizzate di frequente. Riutilizzando gli input elaborati di recente, gli sviluppatori possono tagliare i costi del 50% e ridurre i tempi di risposta. Questa funzione è particolarmente utile per le applicazioni che richiedono lunghe conversazioni o contesti ripetuti, come i chatbot e gli strumenti di assistenza clienti.

L’utilizzo di input memorizzati nella cache può far risparmiare fino al 50% sui costi dei token di input.

OpenAI svela l'API Realtime e altre funzionalità per gli sviluppatori — Confronto dei prezzi dei token di input memorizzati nella cache e non memorizzati nella cache per l’API di OpenAI. Fonte: OpenAI

Distillazione dei modelli

La distillazione dei modelli consente agli sviluppatori di mettere a punto modelli più piccoli e più efficienti dal punto di vista dei costi, utilizzando i risultati di modelli più grandi e più capaci. Si tratta di una svolta epocale perché, in precedenza, la distillazione richiedeva molteplici passaggi e strumenti scollegati tra loro, rendendo il processo lungo e soggetto a errori.

Prima della funzione integrata Model Distillation di OpenAI, gli sviluppatori dovevano orchestrare manualmente diverse parti del processo, come la generazione di dati da modelli più grandi, la preparazione di set di dati per la messa a punto e la misurazione delle prestazioni con vari strumenti.

Ora gli sviluppatori possono archiviare automaticamente le coppie di risultati di modelli più grandi, come GPT-4o, e usarle per mettere a punto modelli più piccoli, come GPT-4o-mini. L’intero processo di creazione del set di dati, messa a punto e valutazione può essere eseguito in modo più strutturato, automatizzato ed efficiente.

La semplificazione del processo di sviluppo, la minore latenza e i costi ridotti renderanno il modello GPT-4o di OpenAI una prospettiva interessante per gli sviluppatori che desiderano distribuire rapidamente applicazioni potenti. Sarà interessante vedere quali applicazioni saranno possibili grazie alle funzionalità multimodali.

Leggi di più su dailyai.com