Google inaugura l’era dell’AI agenziale

Il CEO di Google Sundar Pichai ha annunciato il lancio di Gemini 2.0, un modello che rappresenta il passo successivo nell’ambizione di Google di rivoluzionare l’IA.

Un anno dopo l’introduzione del modello Gemini 1.0, questo importante aggiornamento incorpora capacità multimodali migliorate, funzionalità agenziali e strumenti innovativi per gli utenti, progettati per superare i limiti della tecnologia guidata dall’IA.

Un salto verso l’IA trasformativa

Riflettendo sui 26 anni di missione di Google per organizzare e rendere accessibili le informazioni del mondo, Pichai ha dichiarato: “Se Gemini 1.0 serviva a organizzare e comprendere le informazioni, Gemini 2.0 serve a renderle molto più utili”

Gemini 1.0, rilasciato nel dicembre 2022, si è distinto per essere il primo modello di intelligenza artificiale multimodale di Google. La prima iterazione era in grado di comprendere ed elaborare testi, video, immagini, audio e codice. La sua versione migliorata 1.5 è stata ampiamente apprezzata dagli sviluppatori per la sua capacità di comprendere i contesti lunghi, consentendo di realizzare applicazioni come NotebookLM, incentrata sulla produttività.

Ora, con Gemini 2.0, Google intende accelerare il ruolo dell’IA come assistente universale in grado di generare immagini e audio in modo nativo, di ragionare e pianificare meglio e di prendere decisioni nel mondo reale. Secondo le parole di Pichai, questo sviluppo rappresenta l’alba di una “era agenziale”

“Abbiamo investito nello sviluppo di modelli più agenziali, in grado cioè di comprendere meglio il mondo che ti circonda, di pensare più passi avanti e di agire per tuo conto, con la tua supervisione”, ha spiegato Pichai.

Gemini 2.0: Caratteristiche principali e disponibilità

Il cuore dell’annuncio di oggi è il rilascio sperimentale di Gemini 2.0 Flash, il modello di punta della seconda generazione di Gemini. Si basa sulle fondamenta gettate dai suoi predecessori e offre tempi di risposta più rapidi e prestazioni avanzate.

Gemini 2.0 Flash supporta input e output multimodali, tra cui la possibilità di generare immagini native insieme al testo e di produrre audio multilingue text-to-speech orientabile. Inoltre, gli utenti possono beneficiare dell’integrazione di strumenti nativi come Google Search e anche di funzioni definite dall’utente di terze parti.

Gli sviluppatori e le aziende potranno accedere a Gemini 2.0 Flash tramite Gemini API in Google AI Studio e Vertex AI, mentre il rilascio di modelli più grandi è previsto per gennaio 2024.

Per garantire l’accessibilità globale, l’app Gemini presenta ora una versione ottimizzata per la chat del modello sperimentale 2.0 Flash. I primi utilizzatori possono sperimentare questo assistente aggiornato su desktop e mobile, mentre il lancio dell’app mobile è imminente.

Anche i prodotti come Google Search sono stati migliorati con Gemini 2.0, consentendo di gestire query complesse come problemi matematici avanzati, richieste di codifica e domande multimodali.

Una suite completa di innovazioni AI

Il lancio di Gemini 2.0 è accompagnato da nuovi e interessanti strumenti che ne illustrano le capacità.

Una di queste caratteristiche, Deep Research, funziona come un assistente di ricerca AI che semplifica il processo di investigazione di argomenti complessi compilando le informazioni in rapporti completi. Un altro aggiornamento migliora la ricerca con le panoramiche AI abilitate da Gemini che affrontano le complesse query degli utenti in più fasi.

Il modello è stato addestrato utilizzando le Tensor Processing Unit (TPU) di sesta generazione di Google, note come Trillium, che Pichai ha definito “il 100% dell’addestramento e dell’inferenza di Gemini 2.0”

Trillium è ora disponibile per gli sviluppatori esterni, consentendo loro di beneficiare della stessa infrastruttura che supporta i progressi di Google.

Esperienze agenziali all’avanguardia

Gemini 2.0 è accompagnato da prototipi “agonici” sperimentali costruiti per esplorare il futuro della collaborazione tra uomo e IA, tra cui:

Progetto Astra: Un assistente AI universale

Presentato per la prima volta all’I/O di quest’anno, Project Astra sfrutta la comprensione multimodale di Gemini 2.0 per migliorare le interazioni con l’IA nel mondo reale. Tester fidati hanno provato l’assistente su Android, offrendo un feedback che ha contribuito a perfezionare il dialogo multilingue, la conservazione della memoria e l’integrazione con gli strumenti di Google come Search, Lens e Maps. Astra ha anche dimostrato una latenza di conversazione quasi umana e sono in corso ulteriori ricerche per la sua applicazione nella tecnologia indossabile, come i prototipi di occhiali AI.

Progetto Mariner: Ridefinire l’automazione del web

Project Mariner è un assistente sperimentale per la navigazione web che sfrutta la capacità di Gemini 2.0 di ragionare su testo, immagini ed elementi interattivi come i moduli all’interno di un browser. Nei test iniziali ha raggiunto una percentuale di successo dell’83,5% nel benchmark WebVoyager per il completamento di attività web end-to-end. I primi tester che utilizzano un’estensione di Chrome stanno contribuendo a perfezionare le capacità di Mariner, mentre Google valuta le misure di sicurezza per garantire che la tecnologia rimanga facile da usare e sicura.

Jules: Un agente di codifica per gli sviluppatori

Jules, un assistente dotato di intelligenza artificiale costruito per gli sviluppatori, si integra direttamente nei flussi di lavoro di GitHub per affrontare le sfide di codifica. È in grado di proporre autonomamente soluzioni, generare piani ed eseguire attività basate sul codice, il tutto sotto la supervisione umana. Questa sperimentazione fa parte dell’obiettivo a lungo termine di Google di creare agenti AI versatili in vari settori.

Applicazioni di gioco e non solo

Estendendo la portata di Gemini 2.0 agli ambienti virtuali, Google DeepMind sta collaborando con partner di gioco come Supercell per creare agenti di gioco intelligenti. Questi compagni sperimentali di intelligenza artificiale possono interpretare le azioni di gioco in tempo reale, suggerire strategie e persino accedere a conoscenze più ampie tramite la ricerca. Sono in corso anche ricerche su come il ragionamento spaziale di Gemini 2.0 potrebbe supportare la robotica, aprendo le porte ad applicazioni future nel mondo fisico.

Affrontare la responsabilità nello sviluppo dell’IA

Con l’espansione delle capacità dell’IA, Google sottolinea l’importanza di dare priorità alla sicurezza e alle considerazioni etiche.

Google sostiene che Gemini 2.0 è stata sottoposta a un’approfondita valutazione dei rischi, supportata dalla supervisione del Comitato per la Responsabilità e la Sicurezza per mitigare i potenziali rischi. Inoltre, le sue capacità di ragionamento incorporate consentono un “red-teaming” avanzato, permettendo agli sviluppatori di valutare gli scenari di sicurezza e di ottimizzare le misure di sicurezza su scala.

Google sta anche studiando delle misure di salvaguardia per tutelare la privacy degli utenti, prevenire gli abusi e garantire l’affidabilità degli agenti AI. Ad esempio, Project Mariner è progettato per dare priorità alle istruzioni dell’utente e resistere alle iniezioni di messaggi dannosi, evitando minacce come il phishing o le transazioni fraudolente. Nel frattempo, i controlli sulla privacy di Project Astra consentono agli utenti di gestire facilmente i dati della sessione e le preferenze di cancellazione.

Pichai ha ribadito l’impegno dell’azienda per uno sviluppo responsabile, affermando: “Crediamo fermamente che l’unico modo per costruire l’intelligenza artificiale sia quello di essere responsabili fin dall’inizio”

Con il rilascio di Gemini 2.0 Flash, Google si sta avvicinando alla sua visione di costruire un assistente universale in grado di trasformare le interazioni in tutti i settori.

Leggi di più su www.artificialintelligence-news.com