L’evento Google’s I/O 2024 ha preso il via martedì con l’annuncio di molteplici nuovi progressi in prodotti di intelligenza artificiale.
OpenAI può aver cercato di rubare la scena a Google con il rilascio di GPT-4o lunedì, ma il keynote del Google I/O 2024 è stato pieno di annunci emozionanti.
Ecco una panoramica dei più significativi avanzamenti nell’AI, dei nuovi strumenti e dei prototipi con cui Google sta sperimentando.
Ask Photos
Google Photos, il servizio di archiviazione e condivisione di foto di Google, sarà ricercabile utilizzando query in linguaggio naturale con Ask Photos. Gli utenti possono già cercare elementi o persone specifiche nelle loro foto, ma Ask Photos porta questa funzionalità a un altro livello.
Il CEO di Google Sundar Pichai ha mostrato come potevi usare Ask Photos per ricordarti qual è il numero della targa della tua auto o fornire feedback su come sono progredite le capacità di nuoto di un bambino.
Alimentato da Gemini, Ask Photos capisce il contesto attraverso le immagini e può estrarre il testo, creare compilation di highlight o rispondere a query sulle immagini archiviate.
Con oltre 6 miliardi di immagini caricate quotidianamente su Google Photos, Ask Photos avrà bisogno di una grande finestra di contesto per essere utile.
E se le tue foto potessero rispondere alle tue domande? ???? Oggi al #GoogleIO abbiamo presentato Ask Photos, una nuova funzionalità di Google Photos che fa proprio questo. Ask Photos è il nuovo modo di cercare le tue foto con l’aiuto di Gemini. #AskPhotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
— Google Photos (@googlephotos) 14 maggio 2024
Gemini 1.5 Pro
Pichai ha annunciato che Gemini 1.5 Pro con una finestra di contesto di 1M di token sarà disponibile per gli utenti Gemini Advanced. Questo equivale a circa 1.500 pagine di testo, ore di audio e un’intera ora di video.
I programmatori possono iscriversi a una lista d’attesa per provare Gemini 1.5 Pro con un’impressionante finestra di contesto di 2M che presto sarà disponibile a tutti. Pichai dice che questo è il prossimo passo nel viaggio di Google verso l’obiettivo finale di un contesto infinito.
Anche Gemini 1.5 Pro ha avuto un miglioramento delle prestazioni nella traduzione, nel ragionamento e nella programmazione e sarà veramente multimodale con la capacità di analizzare video e audio caricati.
“Ha colpito nel segno.”
“Questo cambia tutto.”
“È un’esperienza stupefacente.”
“Mi sentivo come se avessi un superpotere.”
“Questo sarà fantastico.”Sentite i commenti di sviluppatori che hanno provato Gemini 1.5 Pro con una finestra di contesto di 1 milione di token. #GoogleIO pic.twitter.com/odOfI4lvOL
— Google (@Google) 14 maggio 2024
Google Workspace
Le estese capacità di contesto e multimodali permettono a Gemini di essere estremamente utile quando integrato con Google Workspace.
Gli utenti possono usare query in linguaggio naturale per chiedere a Gemini questioni relative alle loro email. La demo ha mostrato un esempio di un genitore che chiede un riassunto delle email recenti della scuola di loro figlio.
Gemini sarà anche in grado di estrarre highlight da e rispondere a domande su riunioni Google Meet di fino a un’ora.
NotebookLM – Audio Overview
Google ha lanciato NotebookLM l’anno scorso. Consente agli utenti di caricare le proprie note e documenti dei quali NotebookLM diventa un esperto.
Questa è estremamente utile come guida alla ricerca o tutor e Google ha dimostrato un aggiornamento sperimentale chiamato Audio Overview.
Audio Overview utilizza i documenti sorgente di input e genera una discussione audio basata sul contenuto. Gli utenti possono partecipare alla conversazione e utilizzare il linguaggio parlato per interrogare NotebookLM e indirizzare la discussione.
NotebookLM! Amo molto questo progetto, l’Arcades Project alimentato da AI. Con la multimodalità di Gemini Pro 1.5, può creare automaticamente discussioni audio del materiale sorgente che hai aggiunto alle tue fonti. pic.twitter.com/IhhSfj8AqR
— Dieter Bohn (@backlon) 14 maggio 2024
Non c’è notizia di quando Audio Overview sarà implementato, ma potrebbe essere di grande aiuto per chiunque voglia un tutor o un interlocutore con cui affrontare un problema.
Google ha anche annunciato LearnLM, una nuova famiglia di modelli basata su Gemini e ottimizzata per l’apprendimento e l’educazione. LearnLM potenzierà NotebookLM, YouTube, Search e altri strumenti educativi per renderli più interattivi.
La demo è stata molto impressionante, ma già sembra che alcuni degli errori commessi da Google con i suoi video di rilascio originali di Gemini siano entrati in questo evento.
La demo di NotebookLM non è in tempo reale. Vorrei che avessero stabilito questa aspettativa senza seppellirla in una nota a pie’ di pagina con il carattere più piccolo possibile. pic.twitter.com/tGN5i3fsVD
— Delip Rao e/σ (@deliprao) 14 maggio 2024
Agenti AI e Project Astra
Pichai afferma che gli agenti AI alimentati da Gemini saranno presto in grado di gestire i nostri compiti quotidiani faticosi. Google sta sviluppando prototipi di agenti in grado di lavorare su piattaforme e browser diversi.
L’esempio dato da Pichai era di un utente che istruiva Gemini a restituire un paio di scarpe e poi l’agente lavorava attraverso molteplici email per trovare i dettagli rilevanti, registrava la restituzione con il negozio online e prenotava il ritiro con un corriere.
Demis Hassabis ha presentato Project Astra, l’assistente personale AI in fase di prototipazione di Google. La demo delle sue capacità multimodali ha dato un’anticipazione del futuro in cui un’IA risponde alle domande in tempo reale sulla base di video in diretta e ricorda i dettagli dei video precedenti.
Hassabis ha detto che alcune di queste funzionalità saranno lanciate entro la fine dell’anno.
Da tempo stiamo lavorando su un agente universale AI che può essere veramente utile nella vita di tutti i giorni. Oggi al #GoogleIO abbiamo mostrato i nostri progressi più recenti in questa direzione: Project Astra. Ecco un video del nostro prototipo, catturato in tempo reale. pic.twitter.com/TSGDJZVslg
— Demis Hassabis (@demishassabis) 14 maggio 2024
AI generativa
Google ci ha dato una sbirciata agli strumenti di IA generativa di immagini, musica e video su cui sta lavorando.
Google ha introdotto Imagen 3, il suo generatore di immagini più avanzato. Risponde in modo più accurato ai dettagli nelle indicazioni sfumate e fornisce immagini fotorealistiche più precise.
Hassabis ha detto che Imagen 3 è per Google il “miglior modello per il rendering del testo, che è sempre stata una sfida per i modelli di generazione di immagini.”.
Oggi stiamo introducendo Imagen 3, il modello di generazione di immagini più evoluto di DeepMind. Comprende i prompt così come li scrivono le persone, crea immagini più fotorealistiche ed è il nostro miglior modello per la rappresentazione del testo. #GoogleIO pic.twitter.com/6bjidsz6pJ
— Google (@Google) 14 maggio 2024
Music AI Sandbox è un generatore di musica AI progettato come uno strumento collaborativo professionale per la creazione di musica, piuttosto che come generatore di interi brani.
Insieme a @YouTube, stiamo sviluppando Music AI Sandbox, una suite di tool AI per trasformare il modo in cui la musica può essere creata. ????
Per aiutarci a progettarli e testarli, abbiamo lavorato a stretto contatto con musicisti, autori di canzoni e produttori. ↓ #GoogleIO pic.twitter.com/pMLa3aCveu
— Google DeepMind (@GoogleDeepMind) DeepMind/status/1790435413682975043?ref_src=twsrc%5Etfw”>14 maggio 2024
Veo è il generatore di video di Google che trasforma i prompt di testo, immagine o video in clip di un minuto a 1080p. Permette anche di fare modifiche al video tramite comando di testo. Veo sarà buono quanto Sora?
Google implementerà il suo watermark digitale SynthID al testo, audio, immagini e video.



