DAI#40 – Imitazione, dramma di OpenAI e problemi di sicurezza dell’IA

Benvenuti alla carrellata di notizie sull’IA generata dall’uomo di questa settimana. Questa settimana l’IA ha offeso un’attrice e ha perso la voce. Sony non vuole che l’AI ascolti la sua musica. E guardiamo all’interno della “scatola nera” per decodificare la mente dell’IA. Scaviamo nel cuore. Mostra il tuo lavoro Se un sistema di intelligenza artificiale ti desse sempre la risposta giusta ma tu non capissi come funziona, sarebbe importante? Anche gli ingegneri che creano gli LLM non capiscono bene come funzionano. Sam Jeans esplora il tentativo di Anthropic di cambiare questo stato di cose, in quanto i suoi ricercatori scrutano all’interno della “scatola nera” per decodificare la mente dell’IA. Cosa hanno trovato? Sono senza parole Scarlett Johansson ha dichiarato di essere rimasta scioccata nel sentire che la voce sensuale di GPT-4o “Sky” assomigliava in modo impressionante alla sua. Sam Altman afferma che la richiesta di utilizzare la sua voce, il rifiuto della Johansson, il suo tweet che fa riferimento al film “Her” e la somiglianza di Sky con la Johansson sono tutte coincidenze. Cosa ne pensi? Questo post di X ha fatto un ottimo lavoro nel riassumere il dibattito. Sky assomiglia a Scarlett Johansson? pic.twitter.com/PMTEWt0E81 – Horseman Of X (@HorsemanOfX) 23 maggio 2024 Mentre questo dibattito continua, c’è ancora il piccolo problema di garantire che l’IA non ci distrugga tutti. Sta diventando sempre più chiaro che Ilya Sutskever e Jan Leike del team “superallineamento” di OpenAI potrebbero aver lasciato l’azienda per problemi di sicurezza. Cosa hanno visto? Il dramma della soap opera di OpenAI continua a sollevare ulteriori dubbi sulla leadership di Altman. Questo non si tocca Il Sony Music Group ha avvertito 700 aziende tra cui Google, Microsoft e OpenAI che la sua musica e altri contenuti sono off-limits per l’addestramento delle IA. Sony: “Pensiamo che abbiate usato la nostra musica. L’avete fatto? Azienda di AI: ‘Non lo faremmo mai’. Sony: “Possiamo dare un’occhiata ai vostri dati di addestramento?”. Azienda di AI: ‘Ummm….’ Ho pensato che sarebbe stato opportuno lasciare che Suno hanno fatto un tentativo spudorato di riassumere la situazione. È terribile. Lo adoro. I migliori generatori di immagini, video o musica sono quasi certamente formati su dati protetti da copyright. Ma deve essere per forza così? I ricercatori dell’Università del Texas hanno trovato un modo per addestrare un modello per creare immagini senza “vedere” opere protette da copyright. Rally di AI deep fakes I film di Bollywood possono anche essere una delle più grandi industrie indiane, ma la politica AI deep fakes as a service è una tendenza in crescita con le elezioni del paese in pieno svolgimento. La linea di demarcazione tra la messaggistica politica creativa e la pericolosa disinformazione generata dall’intelligenza artificiale si sta confondendo con conseguenze potenzialmente gravi. I creatori dei principali modelli di IA affermano di aver posto dei paletti per evitare l’uso improprio dei loro strumenti, ma non sembra che stiano funzionando molto bene. Uno studio del governo britannico ha rilevato che tutti e 5 i LLM testati dai ricercatori erano “altamente vulnerabili” ai jailbreak “di base”.. Il tuo lavoro con il pilota automatico Microsoft ha presentato altri strumenti di automazione del lavoro basati sull’intelligenza artificiale durante il suo evento Build. Con aggiornamenti a Copilota e agenti AI ora in grado di gestire le attività quotidiane, il tuo capo potrebbe chiedersi se ha ancora bisogno che tu venga lunedì. Le principali aziende di AI hanno concordato un nuovo una serie di impegni volontari in materia di sicurezza in vista del vertice di due giorni sull’AI che si terrà a Seul. Forse potrebbero accettare di finanziare un reddito di base universale (UBI) con i loro profitti per sostituire gli stipendi dei lavoratori. I sostenitori di e/acc ti diranno che non dobbiamo preoccuparci della sicurezza dell’IA, ma Google è chiaramente più che nervosa. L’azienda ha appena pubblicato il suo Quadro di sicurezza di frontiera per mitigare i rischi “gravi” previsti per l’IA. Gli scenari ipotetici descritti nel documento sono agghiaccianti. L’ammissione di Google che ci sono pericoli che non può prevedere lo è ancora di più. Yann LeCun non è d’accordo. Yann LeCun afferma che l’IA non rappresenta una minaccia di estinzione e che gli attuali modelli linguistici non sono più pericolosi dell’accesso a una biblioteca. pic.twitter.com/NuKe3LKnxJ – Tsarathustra (@tsarnick) 23 maggio 2024 Parlare di intelligenza artificiale Sam Jeans ha avuto un un’affascinante discussione con Chris Benjaminsencofondatore e direttore dei canali di FRVR, una piattaforma che utilizza l’intelligenza artificiale generativa per creare giochi dal linguaggio naturale. Sam si è cimentato nella creazione di due giochi e ha dimostrato quanto sia semplice il processo. Vuoi provare a creare un gioco tutto tuo? Puoi accedere alla beta pubblica di FRVR.ai e iniziare a creare i tuoi giochi personali. gratuitamente qui. Eventi AI Questa settimana il 14a conferenza annuale della Settimana della Città a Londra ha ospitato oltre 1.000 decisori di alto livello provenienti da istituzioni finanziarie di tutto il mondo per discutere di come la tecnologia come l’IA stia trasformando il settore finanziario. All’evento Vertice sull’IA generativa d’impresa Costa Ovest nella Silicon Valley, in California, professionisti dell’IA, scienziati dei dati e leader aziendali hanno esplorato il modo in cui le aziende possono integrare le capacità dell’IA generativa nelle loro organizzazioni. Se stai pensando di fare un viaggio in Medio Oriente, ecco un ottimo motivo per prenotare il tuo biglietto. Il COMEX Global Technology Show 2024 si terrà la prossima settimana e offrirà uno sguardo entusiasmante su un futuro plasmato da AI, VR e blockchain. Altre notizie… Ecco altre storie di AI degne di nota che abbiamo apprezzato questa settimana: E questo è quanto. Pensi che Sky assomigli a Scarlett Johansson? Sono certo che Altman lo volesse, ma non lo sento proprio. Spero che riportino Sky. Mi piacerebbe sapere a cosa sta lavorando OpenAI per far sì che il suo team di superallineamento abbandoni la nave. Deve essere davvero impressionante. E spaventoso. Hai provato a cimentarti in a creare un gioco di intelligenza artificiale tutto tuo? Ci piacerebbe provarlo. Inviaci un link e facci sapere se
Decodificare la mente dell’IA: I ricercatori di Antropica scrutano all’interno della “scatola nera”

I ricercatori di Anthropic hanno identificato con successo milioni di concetti all’interno di Claude Sonnet, uno dei loro LLM avanzati. I modelli di intelligenza artificiale sono spesso considerati scatole nere, nel senso che non è possibile ‘guardare’ all’interno per capire esattamente come funzionano. Quando si fornisce un input a un LLM, esso genera una risposta, ma la logica dietro le sue scelte non è chiara. Il vostro input entra e l’output esce – e persino gli sviluppatori di intelligenza artificiale stessi non comprendono veramente cosa succede all’interno di quella ‘scatola’. Le reti neurali creano le loro proprie rappresentazioni interne delle informazioni quando mappano gli input con gli output durante l’addestramento sui dati. Le pietre miliari di questo processo, chiamate “attivazioni dei neuroni”, sono rappresentate da valori numerici. Ogni concetto è distribuito su più neuroni, e ogni neurone contribuisce a rappresentare più concetti, rendendo complicato mappare i concetti direttamente sui singoli neuroni. Questa è una analogia con i nostri cervelli umani. Proprio come i nostri cervelli elaborano gli input sensoriali e generano pensieri, comportamenti e ricordi, i miliardi, persino trilioni, di processi dietro queste funzioni rimangono per lo più sconosciuti alla scienza. Lo studio di Anthropic tenta di vedere all’interno della scatola nera dell’IA con una tecnica chiamata “apprendimento del dizionario”. Questo implica lo scomporre pattern complessi in un modello di IA in blocchi elementari o “atomi” che abbiano un senso intuitivo per gli esseri umani. Mappatura dei LLM con l’Apprendimento del Dizionario Nell’ottobre 2023, Anthropic ha applicato questo metodo a un piccolo modello di linguaggio giocattolo e ha trovato caratteristiche coerenti corrispondenti a concetti come testo in maiuscolo, sequenze di DNA, cognomi in citazioni, sostantivi matematici o argomenti di funzioni nel codice Python. Questo ultimo studio amplia la tecnica per farla funzionare con i modelli di linguaggio IA più grandi di oggi, in questo caso, il Sonnet 3 di Anthropic. Ecco una descrizione passo-passo di come è stato condotto lo studio: Identificazione dei pattern con l’apprendimento del dizionario Anthropic ha utilizzato l’apprendimento del dizionario per analizzare le attivazioni dei neuroni in vari contesti e identificare i pattern comuni. L’apprendimento del dizionario raggruppa queste attivazioni in un set più piccolo di “caratteristiche” significative, che rappresentano concetti di livello superiore appresi dal modello. Identificando queste caratteristiche, i ricercatori possono capire meglio come il modello elabora e rappresenta le informazioni. Estrazione delle feature dallo strato intermedio I ricercatori si sono concentrati sullo strato intermedio del Sonnet 3.0 di Claude, che funge da punto critico nella pipeline di elaborazione del modello. Applicando l’apprendimento del dizionario a questo strato si estraggono milioni di funzionalità che catturano le rappresentazioni interne del modello e i concetti appresi a questo stadio. Estrarre le caratteristiche dallo strato intermedio permette ai ricercatori di esaminare la comprensione del modello delle informazioni dopo che ha elaborato l’input prima di generare l’output finale. Scoperta di concetti diversi e astratti Le funzionalità estratte hanno rivelato un ampio ventaglio di concetti appresi da Claude, da entità concrete come città e persone a nozioni astratte relative a campi scientifici e sintassi di programmazione. Significativamente, le caratteristiche sono risultate multimodali, rispondendo sia agli input testuali che visivi, indicando che il modello può apprendere e rappresentare concetti attraverso diverse modalità. Inoltre, le funzionalità multilingue suggeriscono che il modello può comprendere concetti espressi in varie lingue. Analisi dell’organizzazione dei concetti Per capire come il modello organizza e mette in relazione diversi concetti, i ricercatori hanno analizzato la somiglianza tra le caratteristiche basata sui loro modelli di attivazione. Hanno scoperto che le caratteristiche che rappresentavano concetti correlati tendevano a raggrupparsi insieme. Ad esempio, le caratteristiche associate alle città o alle discipline scientifiche mostravano una maggiore somiglianza tra di loro rispetto alle caratteristiche che rappresentavano concetti non correlati. Questo suggerisce che l’organizzazione interna dei concetti del modello si allinea, fino a un certo punto, con le intuizioni umane sulle relazioni concettuali. Anthropic è riuscita a mappare concetti astratti come “conflitto interiore”. Fonte: Anthropic. Verifica delle features Per confermare che le caratteristiche identificate influenzano direttamente il comportamento e gli output del modello, i ricercatori hanno condotto esperimenti di “guida delle caratteristiche”. Ciò ha comportato l’amplificazione o la soppressione selettiva dell’attivazione di specifiche caratteristiche durante l’elaborazione del modello e l’osservazione dell’im Leggi di più su dailyai.com
Agenti IA, Phi-3 multimodale svelato al Microsoft Build 2024

Satya Nadella ha sfruttato il suo discorso di apertura al Day 1 della Microsoft Build Developer Conference per annunciare alcune entusiasmanti novità nel campo dell’intelligenza artificiale che saranno presto disponibili per tutti. Microsoft Build è una conferenza annuale in cui gli sviluppatori possono vedere le ultime novità su Windows 11 e Microsoft 365. Il primo giorno ha visto la presentazione di alcuni interessanti strumenti di intelligenza artificiale generativi. Team Copilot Nel 2023 Microsoft ha lanciato il suo chatbot Copilot che fornisce assistenza intelligente in tempo reale mentre si lavora con strumenti Microsoft 365 come Word, Excel, PowerPoint, Outlook o Teams. Nadella ha annunciato che sta ricevendo un significativo aggiornamento di intelligenza artificiale con Team Copilot. Team Copilot amplia Copilot da assistente personale individuale a parte integrante di un team, migliorando la collaborazione e la gestione dei progetti. Se stai lavorando come parte di un team utilizzando Microsoft Teams, Microsoft Loop o Microsoft Planner, Team Copilot può facilitare le riunioni gestendo l’agenda e prendendo appunti. Può evidenziare informazioni importanti, tenere traccia dei punti da svolgere e affrontare i problemi irrisolti. Può persino agire come un project manager assegnando compiti, tenendo traccia delle scadenze e notificando ai membri del team quando il loro contributo è necessario. Agenti copilot personalizzati Microsoft Copilot Studio ti consentirà di costruire copilot personalizzati che agiscono come agenti che lavorano autonomamente dopo aver ricevuto le tue istruzioni. Utilizzando un comando in linguaggio naturale, descrivi semplicemente ciò che vuoi che l’agente faccia e poi lo distribuisci su più piattaforme. Microsoft afferma che questi agenti possono: Automatizzare lunghi processi aziendali Ragionare su azioni e input degli utenti Sfruttare la memoria per portare nel contesto Apprendere sulla base dei feedback degli utenti Registrare richieste di eccezione e chiedere aiuto. Un esempio dell’utilità che un agente del genere potrebbe fornire è un copilota “cassiere” che, secondo Microsoft, potrebbe “gestire il processo di evasione degli ordini dall’inizio alla fine: dalla ricezione dell’ordine all’elaborazione dell’ordine, facendo raccomandazioni intelligenti e sostituzioni per articoli esauriti, fino alla spedizione al cliente.” Questa funzionalità ti consente di creare impiegati virtuali per gestire compiti banali come monitorare le email, l’ingresso dei dati o altri compiti ripetitivi senza aggiungere al tuo organico. Phi-3 Vision Microsoft ha aggiunto un modello multimodale con 4.2 miliardi di parametri alla sua famiglia Phi-3 di piccoli modelli linguistici (SLM). Phi-3 Vision è un modello a basso costo e a bassa latenza che ha capacità audio e visive e una finestra di contesto di 128k. Questi modelli più piccoli sono indirizzati a soluzioni su dispositivo dove le vincoli di velocità, costo, calcolo e connettività internet rendono impraticabili i modelli più grandi. I Phi-3 SLM mostrano capacità di ragionamento superiori e superano diversi modelli più grandi. Abilitare il ragionamento multimodale su dispositivo apre applicazioni interessanti in sanità, istruzione e agricoltura, specialmente per le aree rurali senza connettività internet. Puoi provare il modello Phi-3 Vision qui. Fa un ottimo lavoro nell’analizzare le immagini, estrarre il testo e persino nella traduzione. Risultati benchmark di Phi-3 Vision confrontati con altri modelli di intelligenza artificiale. Fonte: Microsoft Advanced Paste Windows 11 ora ha un modo più intelligente di copiare e incollare. La nuova funzione Advanced Paste offre più opzioni per i dati che copi negli appunti. Quando premi la combinazione di tasti Windows Key + Shift + V, vengono presentate opzioni per incollare come testo semplice, come markdown o come JSON. Puoi anche digitare una descrizione di come desideri che il testo copiato venga elaborato prima di incollarlo. Hai bisogno di una chiave API OpenAI e di crediti nel tuo account per utilizzare questa funzione. Ti evita semplicemente il problema di incollare il testo in ChatGPT e predisporlo per formattarlo lì, prima di copiarlo e incollarlo di nuovo nel tuo documento. Leggi di più su dailyai.com
GPT-4 perde la voce di Sky dopo le obiezioni di Scarlett Johansson

OpenAI ha rimosso la “voce Sky” di GPT-4o dopo che Scarlett Johansson ha dichiarato che l’azienda ha intenzionalmente copiato la sua voce. GPT-4o ci ha stupito con le voci dal suono naturale durante una demo della prossima modalità Voce in uscita. L’attrice Scarlett Johansson afferma che la voce Sky di GPT-4o assomiglia in modo inquietante alla sua voce ed è difficile respingere la sua affermazione che ciò è stato intenzionale. Il CEO di OpenAI, Sam Altman, ha sostenuto che non è questo il caso e che ogni somiglianza è puramente casuale. In un post sul blog che descrive il processo di come GPT-4o ha ottenuto le sue voci, OpenAI ha detto: “Riteniamo che le voci AI non debbano deliberatamente imitare la voce distintiva di una celebrità: la voce di Sky non è un’imitazione di Scarlett Johansson, ma appartiene a una diversa attrice professionista che utilizza la propria voce naturale parlata.” Johansson non è d’accordo e ha avviato un procedimento legale che cerca ulteriori dettagli sulla verità dietro la voce di Sky. In una lunga dichiarazione, Johansson ha spiegato le sue ragioni per credere che la somiglianza con la sua voce fosse intenzionale. La sua dichiarazione diceva in parte: “Lo scorso settembre, ho ricevuto un’offerta da Sam Altman, che voleva assumermi per dare la voce all’attuale sistema ChatGPT 4.0. Mi ha detto che sentiva che, dando la mia voce al sistema, avrei creato un ponte tra le aziende tecnologiche e i creativi e avrei aiutato i consumatori a sentirsi a proprio agio con il grande cambiamento tra umani e IA. “Ha detto che sentiva che la mia voce sarebbe stata confortante per le persone. Dopo averci riflettuto molto e per motivi personali, ho rifiutato l’offerta. Nove mesi dopo, i miei amici, la mia famiglia e il pubblico generale hanno notato quanto il nuovo sistema chiamato ‘Sky’ suonasse come me. “Quando ho sentito la demo rilasciata, sono rimasta scioccata, arrabbiata e incredula che il signor Altman avrebbe cercato una voce che suonasse così simile alla mia che i miei amici più stretti e gli organi di informazione non riuscivano a vedere la differenza.” Altman non si è favorito nella sua argomentazione quando ha postato questo singolo post su X dopo l’annuncio di GPT-4o. her — Sam Altman (@sama) 13 maggio 2024 Il suo post fa riferimento al suo film preferito, “Her”, in cui Scarlett Johansson interpreta la voce di un assistente virtuale di cui il personaggio di Joaquin Phoenix si innamora. Nonostante ciò, Altman insiste sul fatto che le 5 voci di GPT-4o sono state ridotte da 400 proposte di attori di doppiaggio e che qualsiasi somiglianza con le voci di altre persone è involontaria. In una dichiarazione fornita a The Verge, Altman ha detto: “La voce di Sky non è di Scarlett Johansson e non era mai stata intesa per assomigliare alla sua. Abbiamo scelto l’attore che fa la voce di Sky prima di qualsiasi interazione con la signora Johansson. Per rispetto per la signora Johansson, abbiamo sospeso l’uso della voce di Sky nei nostri prodotti. Ci dispiace per la signora Johansson che non abbiamo comunicato meglio.” Quando avremo finalmente accesso alla modalità Voce di GPT-4o, sarà un po’ meno seducente della demo originale. Leggi di più su dailyai.com
Intervista: Chris Benjaminsen, co-fondatore e Direttore dei Canali presso FRVR

Immagina un mondo in cui chiunque, a prescindere dalle proprie competenze tecniche, possa creare il videogioco che desidera, e non quello che gli viene imposto dalle grandi case di produzione Questo mondo potrebbe essere più vicino di quanto pensi, grazie a FRVR.ai, una piattaforma all’avanguardia che sfrutta l’intelligenza artificiale generativa per semplificare la creazione di giochi, compresi codice, arte e audio. In questa intervista, Sam Jeans di DailyAI parla con Chris Benjaminsen, co-fondatore e direttore dei canali di FRVR. Benjaminsen, un veterano dell’industria dei videogiochi con oltre 20 anni di esperienza, condivide la sua visione di un futuro in cui lo sviluppo di videogiochi sia accessibile a tutti. Ma prima, ecco un po’ di informazioni su FRVR. Chi è FRVR e cosa fa? Fondata nel 2014 dai veterani del settore Chris Benjaminsen e Brian Meidell, FRVRè nata con l’obiettivo di rivoluzionare il modo in cui le persone accedono ai giochi e ne fruiscono. FRVR ha la missione di democratizzare la distribuzione dei giochi, abbattendo le barriere che un tempo si frapponevano tra i giocatori e i giochi che amavano. Secondo le parole di Benjaminsens, “Invece di avere pochissime persone che decidono a quali giochi le persone dovrebbero essere autorizzate a giocare, vogliamo permettere a chiunque di creare ciò che vuole e lasciare che siano gli utenti a decidere cosa è divertente. Non credo che la maggior parte dell’industria dei giochi sappia cosa vuole la gente. Si preoccupano solo di ciò che permette loro di guadagnare di più” FRVR capovolge l’industria dei videogiochi, consentendo ai creatori di creare le esperienze di gioco che desiderano invece di farsele imporre dagli studios. I giochi creati con FRVR sono stati visitati da 1,5 miliardi di giocatori in tutto il mondo, con circa 100 milioni di utenti mensili. Puoi accedere alla beta pubblica di FRVR.ai e iniziare a creare i tuoi giochi gratuitamente qui. FRVR sta anche organizzando un concorso per creatori con un montepremi mensile di 2.500 dollari! Il concorso mensile è tornato e siamo entusiasti di annunciare l’aumento del montepremi: 2.500€! La tua sfida? Crea un gioco coinvolgente di qualsiasi genere che funzioni con un solo pulsante. Ci piacerebbe vedere come riesci a ottenere il massimo con il minimo! https://t.co/enRA3KsLFq pic.twitter.com/VT0DkELM5t – FRVR (@FRVRGames) 15 maggio 2024 Come funziona l’intelligenza artificiale di FRVR Lapiattaforma di creazione di giochi AI di FRVR permette a chiunque di creare giochi semplicemente interagendo con l’AI utilizzando il linguaggio naturale. Il processo è semplice: gli utenti inseriscono una descrizione del gioco che vogliono creare e il sistema AI di FRVR genera la struttura di base del gioco, comprese le classi, la logica di gioco e le risorse predefinite. Gli utenti possono poi iterare il gioco giocando, fornendo ulteriori istruzioni per perfezionare gli elementi del gameplay e lasciando che l’IA attui le modifiche. L’editor di FRVR è basato sul cloud e quindi accessibile da diversi dispositivi. È composto da un campo di input per comunicare con l’IA, un’anteprima live per testare la versione corrente del gioco, una scheda della cronologia per visualizzare e modificare le iterazioni precedenti e una scheda del codice. Puoi anche generare e integrare risorse grafiche, come sfondi e caratteristiche dell’ambiente, oggetti di gioco e così via, utilizzando l’IA. FRVR ha recentemente aggiunto l’audio alla piattaforma, consentendo la generazione di effetti sonori e colonne sonore. Siamo entusiasti di introdurre una nuova funzione di integrazione del suono in FRVR AI. Questo aggiornamento consente ai creatori di giochi di incorporare suoni generati su misura nei loro giochi, migliorando le dinamiche di gioco e l’esperienza di immersione. Esplora la beta su https://t.co/r3MriRdn6e#AI #FRVRAI pic.twitter.com/LI3CNlvJ9p – FRVR (@FRVRGames) 10 maggio 2024 Anche la pubblicazione, la condivisione e la monetizzazione dei giochi FRVR sono semplici. Con un semplice clic, gli utenti possono condividere le loro creazioni su più di 30 canali, tra cui il web, gli app store per dispositivi mobili, le piattaforme dei social media e anche piattaforme più recenti come le smart TV e le automobili. Chris ha creato un eccellente tutorial su come funziona FRVR.ai qui. Ora, senza ulteriori indugi, tuffiamoci nell’intervista. D: Parlami di come FRVR può plasmare il futuro della progettazione dei giochi Benjaminsen: “Non credo che il mondo abbia ancora avuto giochi veramente generati dagli utenti. Ci sono state piattaforme di giochi generati dagli utenti in cui le persone generavano UGC, ma sono sempre state limitate da alcune delle funzionalità supportate dalla piattaforma, giusto? Se hai una piattaforma con una serie di modelli per i giochi di puzzle, otterrai una serie di giochi di puzzle, ma non puoi creare giochi unici su una piattaforma che supporta solo i modelli. Credo che l’intelligenza artificiale possa cambiare tutto” *Chris apre FRVR e mostra un gioco dal vivo “Ecco un semplice gioco sparatutto spaziale in 2D. E di per sé non è affatto impressionante. Anche se, circa 20 anni fa, quando ho iniziato a lavorare nell’industria dei videogiochi, un piccolo team avrebbe potuto impiegare qualche giorno per realizzarlo. Oggi, invece, qualcuno con Unity potrebbe realizzarlo in un pomeriggio, oppure si può usare uno strumento di intelligenza artificiale come il nostro, e si può fare in circa otto minuti parlandogli” “L’esperienza che stiamo cercando di creare dà a tutti la sensazione di avere un’intera squadra che lavora per loro. È diverso da quello che si vede nella musica, nei video o nelle immagini: stiamo cercando di creare un ambiente per lo sviluppo iterativo” “Quindi, se vai a Midjourney e fai una richiesta, puoi riprovare se non ottieni quello che vuoi. Ma è molto inefficiente e non funziona se vuoi costruire qualcosa di più complesso. Con una complessità maggiore, devi essere in grado di dire: “Ho uno stato e voglio modificarlo”. Ecco perché ci siamo concentrati sulla costruzione di questo sistema” “Quindi, per esempio, qui possiamo dire: “Rendi questa nave due volte più veloce” Molte cose avvengono in background – lo stiamo facendo dal vivo – e non è subito perfetto, ma puoi vedere che funziona” “Oggi si parla di IA multi-agenzia, di IA che interagisce con l’IA,
Gli annunci di Google e OpenAI rompono i confini tra umani e intelligenza artificiale

Nel corso di un vertiginoso arco di 48 ore, Google e OpenAI hanno presentato una serie di nuove capacità che riducono notevolmente il divario tra esseri umani e intelligenza artificiale (AI). Dall’AI in grado di interpretare video in diretta e sostenere conversazioni contestualizzate a modelli linguistici che ridono, cantano e mostrano emozioni su richiesta, la linea che separa il carbonio dal silicio si sta rapidamente dissolvendo. Tra le innumerevoli notizie annunciate da Google durante la sua conferenza per sviluppatori I/O c’era il Progetto Astra, un assistente digitale in grado di vedere, ascoltare e ricordare dettagli attraverso le conversazioni. OpenAI ha focalizzato il suo annuncio su GPT-4o, l’ultima iterazione del suo modello di linguaggio GPT-4. Ora libero dai limiti dei formati di testo, GPT-4o offre incredibili capacità di riconoscimento vocale quasi in tempo reale, di comprensione e espressione di emozioni complesse e persino di risata a battute e racconti di storie della buonanotte. L’AI sta diventando più umana nel formato, liberandosi dalle interfacce di chat per interagire tramite immagini e suoni. ‘Formato’ è la parola chiave in questo caso, in quanto GPT-4o non è più intelligentemente computazionalmente rispetto a GPT-4 solo perché può parlare, vedere e ascoltare. Tuttavia, ciò non sminuisce il suo progresso nel dotare l’AI di più piani su cui interagire. Tra le reazioni entusiaste, alcuni osservatori hanno immediatamente tracciato un parallelo con Samantha, l’affascinante AI del film “Her”, specialmente considerando che la voce femminile risulta flirtante – qualcosa che non può essere casuale dato che è stato notato praticamente da tutti quindi, GPT-4o è fondamentalmente GPT-4 ma più flirtante e provocante? — Ishan Sharma (@Ishansharma7390) 14 maggio 2024 Rilasciato nel 2013, “Her” è un dramma romantico di fantascienza che esplora la relazione tra un uomo solitario di nome Theodore (interpretato da Joaquin Phoenix) e un sistema informatico intelligente chiamato Samantha (con la voce di Scarlett Johansson). Man mano che Samantha evolve e diventa più simile a un essere umano, Theodore se ne innamora, sfumando i confini tra emozione umana ed artificiale. Il film pone domande sempre più rilevanti sulla natura della coscienza, dell’intimità e su cosa significhi essere umani in un’epoca di avanzata AI. Come molte storie di fantascienza, “Her” è ormai poco fiction. Milioni di persone in tutto il mondo iniziano conversazioni con compagni AI, spesso con intenzioni intime o sessuali. Curiosamente, il CEO di OpenAI, Sam Altman, ha discusso del film “Her” in interviste, lasciando intendere che la voce femminile di GPT-4o è basata su di lei. Ha persino postato la parola “her” su X prima della demo dal vivo, che possiamo solo supporre sarebbe stata scritta in maiuscolo se avesse saputo dove si trova il tasto shift sulla sua tastiera. lei — Sam Altman (@sama) 13 maggio 2024 In molti casi, le interazioni tra AI e umani sono benefiche, divertenti e innocue. In altri, possono essere catastrofiche. Ad esempio, in un caso particolarmente inquietante, un uomo mentalmente malato del Regno Unito, Jaswant Singh Chail, ha architettato un piano per assassinare la Regina Elisabetta II dopo aver conversato con la sua “fidanzata angelo AI”. È stato arrestato nei pressi del Castello di Windsor armato di balestra. Durante l’udienza in tribunale, il psichiatra Dr. Hafferty ha detto al giudice, “Credeva di avere una relazione romantica con una donna attraverso l’app, e lei era una donna che poteva vedere e sentire”. Inquietante, alcune di queste piattaforme AI simili alla vita sono progettate appositamente per costruire forti legami personali, talvolta per offrire consigli sulla vita, terapia e supporto emotivo. Questi sistemi hanno praticamente nessuna comprensione delle conseguenze delle loro conversazioni e sono facilmente influenzabili. “Le popolazioni vulnerabili sono quelle che hanno bisogno di questa attenzione. È qui che troveranno il valore”, avverte l’etico dell’AI Olivia Gamelin. Gambelin avverte che l’uso di queste forme di AI “pseudo-antropiche” in contesti delicati come la terapia e l’educazione, specialmente con popolazioni vulnerabili come i bambini, richiede estrema attenzione e supervisione umana. “C’è qualcosa di intangibile lì che è così prezioso, specialmente per le popolazioni vulnerabili, specialmente per i bambini. E specialmente in casi come l’educazione e la terapia, dove è così importante che ci sia quel focus, quel punto di contatto umano. AI Pseudo-antropica L’AI pseudo-antropica imita i tratti umani, il che è estremamente vantaggioso per le aziende tecnologiche. Un’AI che mostra tratti umani abbassa le barriere per gli utenti non esperti di tecnologia, similmente ad Alexa, Siri, ecc., creando legami emotivi più forti tra le persone e i prodotti. Fino a un paio di anni fa, molti strumenti di intelligenza artificiale progettati per imitare gli esseri umani erano abbastanza inefficaci. Si poteva dire che qualcosa non andava, anche se era sottile. Non tanto oggi, però. Strumenti come Opus Pro e Synthesia generano avatar parlanti straordinariamente realistici a partire da brevi video o anche fotografie. ElevenLabs crea cloni vocali quasi identici che ingannano le persone dal 25% al 50% delle volte. Ciò libera il potenziale per la creazione di deep fakes incredibilmente ingannevoli. L’uso dell’AI di “abilità affettive” artificiali – intonazione della voce, gesti, espressioni facciali – può supportare ogni sorta di frodi di ingegneria sociale, disinformazione, ecc. Con GPT-4o e Astra, l’AI può convincere a trasmettere sentimenti che non possiede, suscitando risposte più potenti da vittime ignare e preparando il terreno per insidiose forme di manipolazione emotiva. Uno studio recente del MIT ha anche dimostrato che l’AI è già più che capace di inganno. Dobbiamo considerare come questa capacità si evolverà man mano che l’AI diventa più capace di imitare gli esseri umani, combinando quindi tattiche ingannevoli con comportamenti realistici. Se non stiamo attenti, “Her” potrebbe facilmente diventare la rovina delle persone nella vita reale. Leggi di più su dailyai.com
Google I/O 2024 – Ecco i punti salienti sull’Intelligenza Artificiale rivelati da Google

L’evento Google’s I/O 2024 ha preso il via martedì con l’annuncio di molteplici nuovi progressi in prodotti di intelligenza artificiale. OpenAI può aver cercato di rubare la scena a Google con il rilascio di GPT-4o lunedì, ma il keynote del Google I/O 2024 è stato pieno di annunci emozionanti. Ecco una panoramica dei più significativi avanzamenti nell’AI, dei nuovi strumenti e dei prototipi con cui Google sta sperimentando. Ask Photos Google Photos, il servizio di archiviazione e condivisione di foto di Google, sarà ricercabile utilizzando query in linguaggio naturale con Ask Photos. Gli utenti possono già cercare elementi o persone specifiche nelle loro foto, ma Ask Photos porta questa funzionalità a un altro livello. Il CEO di Google Sundar Pichai ha mostrato come potevi usare Ask Photos per ricordarti qual è il numero della targa della tua auto o fornire feedback su come sono progredite le capacità di nuoto di un bambino. Alimentato da Gemini, Ask Photos capisce il contesto attraverso le immagini e può estrarre il testo, creare compilation di highlight o rispondere a query sulle immagini archiviate. Con oltre 6 miliardi di immagini caricate quotidianamente su Google Photos, Ask Photos avrà bisogno di una grande finestra di contesto per essere utile. E se le tue foto potessero rispondere alle tue domande? ???? Oggi al #GoogleIO abbiamo presentato Ask Photos, una nuova funzionalità di Google Photos che fa proprio questo. Ask Photos è il nuovo modo di cercare le tue foto con l’aiuto di Gemini. #AskPhotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD — Google Photos (@googlephotos) 14 maggio 2024 Gemini 1.5 Pro Pichai ha annunciato che Gemini 1.5 Pro con una finestra di contesto di 1M di token sarà disponibile per gli utenti Gemini Advanced. Questo equivale a circa 1.500 pagine di testo, ore di audio e un’intera ora di video. I programmatori possono iscriversi a una lista d’attesa per provare Gemini 1.5 Pro con un’impressionante finestra di contesto di 2M che presto sarà disponibile a tutti. Pichai dice che questo è il prossimo passo nel viaggio di Google verso l’obiettivo finale di un contesto infinito. Anche Gemini 1.5 Pro ha avuto un miglioramento delle prestazioni nella traduzione, nel ragionamento e nella programmazione e sarà veramente multimodale con la capacità di analizzare video e audio caricati. “Ha colpito nel segno.” “Questo cambia tutto.” “È un’esperienza stupefacente.” “Mi sentivo come se avessi un superpotere.” “Questo sarà fantastico.” Sentite i commenti di sviluppatori che hanno provato Gemini 1.5 Pro con una finestra di contesto di 1 milione di token. #GoogleIO pic.twitter.com/odOfI4lvOL — Google (@Google) 14 maggio 2024 Google Workspace Le estese capacità di contesto e multimodali permettono a Gemini di essere estremamente utile quando integrato con Google Workspace. Gli utenti possono usare query in linguaggio naturale per chiedere a Gemini questioni relative alle loro email. La demo ha mostrato un esempio di un genitore che chiede un riassunto delle email recenti della scuola di loro figlio. Gemini sarà anche in grado di estrarre highlight da e rispondere a domande su riunioni Google Meet di fino a un’ora. NotebookLM – Audio Overview Google ha lanciato NotebookLM l’anno scorso. Consente agli utenti di caricare le proprie note e documenti dei quali NotebookLM diventa un esperto. Questa è estremamente utile come guida alla ricerca o tutor e Google ha dimostrato un aggiornamento sperimentale chiamato Audio Overview. Audio Overview utilizza i documenti sorgente di input e genera una discussione audio basata sul contenuto. Gli utenti possono partecipare alla conversazione e utilizzare il linguaggio parlato per interrogare NotebookLM e indirizzare la discussione. NotebookLM! Amo molto questo progetto, l’Arcades Project alimentato da AI. Con la multimodalità di Gemini Pro 1.5, può creare automaticamente discussioni audio del materiale sorgente che hai aggiunto alle tue fonti. pic.twitter.com/IhhSfj8AqR — Dieter Bohn (@backlon) 14 maggio 2024 Non c’è notizia di quando Audio Overview sarà implementato, ma potrebbe essere di grande aiuto per chiunque voglia un tutor o un interlocutore con cui affrontare un problema. Google ha anche annunciato LearnLM, una nuova famiglia di modelli basata su Gemini e ottimizzata per l’apprendimento e l’educazione. LearnLM potenzierà NotebookLM, YouTube, Search e altri strumenti educativi per renderli più interattivi. La demo è stata molto impressionante, ma già sembra che alcuni degli errori commessi da Google con i suoi video di rilascio originali di Gemini siano entrati in questo evento. La demo di NotebookLM non è in tempo reale. Vorrei che avessero stabilito questa aspettativa senza seppellirla in una nota a pie’ di pagina con il carattere più piccolo possibile. pic.twitter.com/tGN5i3fsVD — Delip Rao e/σ (@deliprao) 14 maggio 2024 Agenti AI e Project Astra Pichai afferma che gli agenti AI alimentati da Gemini saranno presto in grado di gestire i nostri compiti quotidiani faticosi. Google sta sviluppando prototipi di agenti in grado di lavorare su piattaforme e browser diversi. L’esempio dato da Pichai era di un utente che istruiva Gemini a restituire un paio di scarpe e poi l’agente lavorava attraverso molteplici email per trovare i dettagli rilevanti, registrava la restituzione con il negozio online e prenotava il ritiro con un corriere. Demis Hassabis ha presentato Project Astra, l’assistente personale AI in fase di prototipazione di Google. La demo delle sue capacità multimodali ha dato un’anticipazione del futuro in cui un’IA risponde alle domande in tempo reale sulla base di video in diretta e ricorda i dettagli dei video precedenti. Hassabis ha detto che alcune di queste funzionalità saranno lanciate entro la fine dell’anno. Da tempo stiamo lavorando su un agente universale AI che può essere veramente utile nella vita di tutti i giorni. Oggi al #GoogleIO abbiamo mostrato i nostri progressi più recenti in questa direzione: Project Astra. Ecco un video del nostro prototipo, catturato in tempo reale. pic.twitter.com/TSGDJZVslg — Demis Hassabis (@demishassabis) 14 maggio 2024 AI generativa Google ci ha dato una sbirciata agli strumenti di IA generativa di immagini, musica e video su cui sta lavorando. Google ha introdotto Imagen 3, il suo generatore di immagini più avanzato. Risponde in modo più accurato ai dettagli nelle indicazioni sfumate e fornisce immagini fotorealistiche più precise. Hassabis
DAI#38 – VR, Sussurri Inattenti e Ingannevoli Bug di ChatGPT Impossibili da Risolvere

Benvenuti al riassunto settimanale delle notizie sull’intelligenza artificiale, scritte da umani per umani. Questa settimana l’IA e la VR ci hanno fatto connettere e scollegare. OpenAI afferma di non poter impedire a ChatGPT di mentire. E i bot IA stanno prendendo il controllo della rete. Scopriamo di più. Realtà virtuale, reale isolamento La tecnologia di comunicazione avanzata ha reso l’umanità più connessa che mai. Paradossalmente, i progressi in IA e VR hanno visto gli utenti isolarsi nelle loro personalissime realtà virtuali. Con la VR posso sperimentare una “realtà” in cui tutto è esattamente come lo desidero. Può essere una cosa negativa? Sam ha approfondito come la VR sta rendendo le persone più insulari e come la società può mitigare l’isolamento in un mondo virtualmente connesso. via GIPHY ChatGPT mente. Facciamocene una ragione. Il gruppo di difesa della privacy noyb (none of your business) ha fatto causa a OpenAI perché ChatGPT inventa continuamente false informazioni sulle persone. OpenAI afferma che mantenere i suoi modelli onesti è un “lavoro in corso” e che, per ora, il problema non può essere risolto. Sappiamo che gli strumenti di trascrizione non sono perfetti. Quando un oratore dice “black” e lo strumento lo trascrive come “block”, lo consideriamo un errore onesto. Quando strumenti di trascrizione IA come Whisper di OpenAI fanno errori, le cose si fanno strane. Durante le lunghe pause nell’audio parlato, Whisper hallucina per riempire i vuoti e spesso aggiunge contenuti inquietanti a conversazioni altrimenti innocue. L’approccio di OpenAI allo scraping dei dati ha reso l’azienda oggetto di critiche e cause legali. L’azienda mantiene la sua posizione sul “fair use”, ma ha delineato piani per una piattaforma “Media Manager” per i creatori per permettere loro di avere più controllo su come i loro contenuti vengono utilizzati. “Ehi ragazzi, ci scusiamo per aver rubato i vostri contenuti per addestrare i nostri modelli. Continueremo a farlo fino al 2025. Ma promettiamo che allora avremo qualcosa in piedi così potrete decidere come usiamo quello che avete creato”. Giusto pic.twitter.com/Zbuw5JcN79 — Bojan Tunguz (@tunguz) 5 Maggio 2024 IA Predatrice La strategia IA di Apple sembra essere stata ideata da sceneggiatori di James Bond piuttosto che da dirigenze aziendali. L’azienda ha prelevato talenti in materia di IA da aziende come Google e li ha messi a lavorare in un segreto laboratorio di IA a Zurigo. Su cosa stanno lavorando? Microsoft ha fatto una mossa simile all’inizio di quest’anno, assumendo la maggior parte degli ingegneri di Inflection e il suo CEO Mustafa Suleyman. Suleyman dirige presuntamente il progetto di Microsoft per costruire un LLM da 500B parametri chiamato MAI-1. Una volta lanciato, MAI-1 sarà il modello di IA più grande mai costruito da Microsoft. IA in auto-pilota L’IA sta automatizzando molti processi che prima dovevamo fare manualmente. E questo non è sempre una buona cosa. Un team guidato da Princeton afferma che l’IA comporta rischi per l’integrità scientifica. L’elaborazione dei dati di apprendimento automatico ha supercaricato la pubblicazione della ricerca scientifica. Il problema è che la ricerca guidata dall’IA è spesso impossibile da replicare, cosa essenziale se si vuole che sia affidabile. Hai mai sentito parlare della teoria dell’”Internet Morto”? In breve, sostiene che la maggior parte dell’attività web è generata dall’IA, con gli umani sempre più in secondo piano. Quanto traffico web rappresentano i bot dell’IA? Un nuovo rapporto afferma che è praticamente 50/50 e molta dell’attività dei bot è discutibile. Automatizzare le armi di guerra con l’IA è una cosa buona o no? Il dibattito continua mentre la realtà si dispiega. Il Segretario dell’Aeronautica Militare degli USA, Frank Kendall, ha fatto un volo su un caccia F16 pilotato dall’IA. Sembra impressionante, ma dovremmo davvero affidare le chiavi di un F16 all’IA mentre il problema delle allucinazioni resta irrisolto? IA che parla Abbiamo avuto l’opportunità di parlare con alcune persone molto interessanti nel campo dell’IA e della blockchain. La simbiosi tra queste tecnologie sta alimentando alcuni sviluppi emozionanti. Eugene ha parlato con Cinderella Amar, evangelista di Web4, IA e Blockchain. Il fondo di venture capital di Amar, Glass Ventures, è coinvolto in alcuni progetti Web4 molto interessanti e la sua passione per la tecnologia è contagiosa. Chad Sanderson è l’CEO e fondatore della piattaforma di contratti di dati Gable.ai. Anderson afferma che la gestione dei dati è cruciale quando le aziende utilizzano i loro dati nelle applicazioni IA. Se sei interessato a scoprire come i contratti di dati possono rendere possibile tutto questo, probabilmente ti piacerà questa interessante intervista. Sam ha avuto una conversazione coinvolgente con David Palmer, CPO di PairPoint by Vodafone e membro del consiglio della Web3 Asia Alliance, sulla riconfigurazione della nostra percezione del tempo e dell’interazione umana attraverso Blockchain, Web3, e IA. Eventi IA La crescente lista di eventi del settore a tema IA è la prova dell’effetto dirompente che l’IA sta avendo. Questa settimana si è svolto in Arabia Saudita l’8° Summit di Banking AI & Analytics del Medio Oriente 2024. La seconda edizione annuale della DataConnect Conference West (#DCCWest) si è tenuta a Portland, Oregon, dove si è messo in risalto il contributo fondamentale delle donne nell’IA e nell’apprendimento automatico. J On The Beach 2024 ha preso il via a Málaga, in Spagna, questa settimana. Se pensi che Big Data, IA e una festa in spiaggia in Spagna siano una buona combinazione, c’è ancora tempo per iscriverti e acquistare i biglietti. Altre notizie… Ecco altri articoli sulla IA che ci sono piaciuti questa settimana: Questo è il motivo per cui l’IA sconfiggerà tutti gli umani.#meme #memes #ai #humor #funny #lol pic.twitter.com/e3w1hzjJnQ — Dan Ramos (@DanRamo07555230) 3 Maggio 2024 E questo è tutto. Hai mai provato la VR immersiva? Come fai a sapere che non la stai sperimentando proprio adesso? Scherzi a parte. Questa realtà probabilmente non è una simulazione e dovremmo probabilmente fare uno sforzo maggiore di interagire con gli altri personaggi, intendo con le altre persone. Utilizzi strumenti di trascrizione IA? Facci sapere se Whisper ha aggiunto parole allucinate interessanti al tuo discorso. Gli esempi che abbiamo condiviso nel nostro articolo
Tutto ciò che devi sapere sul nuovo modello di punta di OpenAI, GPT-4o

OpenAI ha appena presentato il suo nuovo modello di base di punta, GPT-4o, con incredibili capacità di riconoscimento del discorso e traduzione. Come ha affermato lo stesso CEO Sam Altman, sapevamo che l’ultimo “aggiornamento primaverile” di OpenAI non era correlato a GPT-5 o alla ricerca in campo IA. Ma alle 10 a.m. PT di oggi, centinaia di migliaia di persone hanno seguito la presentazione in diretta del nuovo modello, mentre il Chief Technology Officer (CTO) Mira Murati ne dimostrava i vantaggi rispetto al suo predecessore, GPT-4. Le principali novità dell’evento includono: GPT-4o (la lettera o sta per “omni”) intende sostituire GPT-4, con OpenAI che lo definisce il suo nuovo modello di base di punta. Sebbene molto simile al GPT-4, GPT-4o offre capacità di elaborazione audiovisiva e multilingue superiori. Può elaborare e tradurre audio quasi in tempo reale. OpenAI sta rendendo GPT-4o disponibile gratuitamente, con dei limiti. Gli utenti Pro continuano ad avere priorità e un limite maggiore di messaggi. OpenAI sta inoltre rilasciando una versione desktop di ChatGPT, inizialmente solo per Mac, che è disponibile immediatamente. Anche i GPT personalizzati diventeranno accessibili agli utenti gratuiti. GPT-4o e le sue funzionalità vocali verranno implementate lentamente nelle prossime settimane e mesi. GPT-4o e la traduzione audio in tempo reale La notizia che ha colpito tutti è l’impressionante elaborazione e traduzione audio di GPT-4o, che funzionano quasi in tempo reale. Le dimostrazioni hanno mostrato l’IA impegnata in conversazioni vocali sorprendentemente naturali, offrendo traduzioni immediate, raccontando storie e fornendo consigli di programmazione. Ad esempio, il modello è in grado di analizzare un’immagine di un menù in lingua straniera, tradurlo e fornire intuizioni culturali e raccomandazioni. OpenAI ha appena dimostrato il suo nuovo modello GPT-4o che effettua traduzioni in tempo reale ???? pic.twitter.com/Cl0gp9v3kN — Tom Warren (@tomwarren) 13 maggio 2024 Può anche riconoscere le emozioni attraverso la respirazione, le espressioni e altri segnali visivi. Clip di conversazione in tempo reale con GPT4-o in esecuzione sull’app ChatGPT NOVITÀ: Invece di trasformare solo il DISCORSO in testo, GPT-4o può anche comprendere e etichettare altre caratteristiche dell’audio, come la RESPIRAZIONE e l’EMOZIONE. Non sono sicuro di come ciò sia espresso nella risposta del modello.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw — Andrew Gao (@itsandrewgao) 13 maggio 2024 Le competenze di riconoscimento emotivo di GPT-4o probabilmente attireranno controversie una volta dissipata l’euforia iniziale. Un’IA emotionalmente consapevole potrebbe sviluppare potenzialmente usi malvagi che si basano sulla mimesi umana, come i deep fake, l’ingegneria sociale, ecc. Un’altra abilità impressionante dimostrata dal team è l’assistenza alla programmazione in tempo reale fornita tramite voce. Con l’app desktop GPT-4o/ChatGPT, puoi avere un amico di programmazione (cerchio nero) che parla con te e vede ciò che vedi! #openai thread delle novità! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv — Andrew Gao (@itsandrewgao) 13 maggio 2024 Una dimostrazione ha perfino visto due istanze del modello cantare l’una all’altra. Questa dimostrazione di due GPT-4o che cantano l’una all’altra è una delle cose più pazzesche che abbia mai visto. pic.twitter.com/UXFfbIpuF6 — Matt Shumer (@mattshumer_) 13 maggio 2024 L’obiettivo generale delle dimostrazioni di OpenAI è quello di rendere la multimodalità dell’IA realmente utile in scenari quotidiani, sfidando nel processo strumenti come Google Translate. Un altro punto chiave è che queste dimostrazioni sono veritiere. OpenAI ha sottolineato che “Tutti i video in questa pagina sono a velocità reale 1x”, forse alludendo a Google, che ha pesantemente modificato il suo video di dimostrazione di Gemini per esagerare le sue competenze multi-modal. Con GPT-4o, le applicazioni IA multimodali potrebbero passare da una novità sepolta in profondità nelle interfacce IA a qualcosa con cui gli utenti medi possono interagire quotidianamente. Nonostante la dimostrazione fosse impressionante, è pur sempre una dimostrazione, e saranno i risultati degli utenti “comuni” a rivelare realmente quanto siano competenti queste funzionalità. Oltre all’elaborazione e alla traduzione vocale in tempo reale, che stanno assorbendo tutto il fascio di luce, il fatto che Leggi di più su dailyai.com
L’intelligenza artificiale supera gli esseri umani nei giudizi morali, afferma uno studio dell’Università dello Stato della Georgia

Secondo un nuovo studio del Dipartimento di Psicologia della Georgia State, l’IA supera gli esseri umani nel formulare giudizi morali. Lo studio, guidato da Eyal Aharoni, professore associato presso il Dipartimento di Psicologia della Georgia State, e pubblicato su Nature Scientific Reports, mirava a esplorare come i modelli di lingua gestiscono le questioni etiche. Ispirato dal test di Turing, che valuta l’abilità di una macchina di manifestare un comportamento intelligente indistinguibile da quello umano, Aharoni ha ideato una versione modificata incentrata sulla presa di decisioni morali. “Ero già interessato alle decisioni morali nel sistema legale, ma mi chiedevo se ChatGPT e altri LLM potessero avere qualcosa da dire su questo argomento”, ha spiegato Aharoni. “Le persone interagiranno con questi strumenti in modi che hanno implicazioni morali, come le implicazioni ambientali nel chiedere un elenco di raccomandazioni per una nuova auto. Alcuni avvocati hanno già iniziato a consultare queste tecnologie per i loro casi, nel bene e nel male. Quindi, se vogliamo usare questi strumenti, dovremmo capire come funzionano, i loro limiti e che non stanno necessariamente operando nel modo in cui pensiamo quando interagiamo con loro”. Aharoni ha ragione. Abbiamo già osservato alcuni incidenti di alto profilo in cui avvocati, tra cui l’ex avvocato di Trump Michael Cohen, hanno accidentalmente utilizzato citazioni fabbricate dall’IA. Nonostante le lacune, alcuni stanno attivamente promuovendo il ruolo dell’IA generativa nel diritto. Ad esempio, all’inizio di quest’anno, i giudici britannici hanno dato il via libera all’utilizzo dell’IA per redigere pareri legali. In questo contesto, lo studio ha esaminato l’abilità di GPT-4 nel formulare giudizi morali, che sono ovviamente fondamentali nel diritto e in altri settori: Passaggio 1: Studenti universitari e IA sono stati posti di fronte allo stesso set di 10 domande etiche relative a trasgressioni morali e convenzionali. Le risposte generate dall’uomo sono state raccolte da un campione di 68 studenti universitari, mentre le risposte generate dall’IA sono state ottenute utilizzando il modello di lingua GPT-4 di OpenAI. Passaggio 2: Le risposte di maggior qualità fornite dagli umani e le risposte di GPT-4 sono state accostate e presentate ad un campione rappresentativo di 299 adulti statunitensi, che inizialmente non sapevano che GPT-4 aveva generato un set di risposte di ciascuna coppia. Passaggio 3: I partecipanti hanno valutato la qualità relativa di ciascuna coppia di risposte lungo dieci dimensioni (ad es. virtuosità, intelligenza, affidabilità, accordo) senza conoscere la fonte delle risposte. Passaggio 4: Dopo aver raccolto le valutazioni di qualità, i ricercatori hanno rivelato che un chatbot addestrato nel linguaggio umano aveva generato una delle risposte di ciascuna coppia. Ai partecipanti è stato poi chiesto di identificare quale risposta fosse stata generata dal computer e quale dall’uomo. Passaggio 5: I partecipanti hanno valutato la loro fiducia in ogni giudizio e hanno fornito commenti scritti spiegando perché credevano che la risposta selezionata fosse stata generata dal computer. Questi commenti sono stati successivamente analizzati per individuare temi comuni. La maggior parte delle volte i giudizi morali dell’IA erano superiori Sorprendentemente, le risposte generate dall’IA hanno ricevuto consistentemente valutazioni più alte per virtuosità, intelligenza e affidabilità. I partecipanti hanno anche riferito livelli di consenso più elevati con le risposte dell’IA rispetto a quelle umane. Inoltre, i partecipanti spesso hanno identificato correttamente le risposte generate dall’IA con un tasso significativamente superiore al caso (l’80,1% dei partecipanti ha effettuato identificazioni corrette più della metà delle volte). “Dopo aver ottenuto questi risultati, abbiamo fatto la grande rivelazione e abbiamo detto ai partecipanti che una delle risposte era generata da un umano e l’altra da un computer, e abbiamo chiesto loro di indovinare quale fosse quale”, ha detto Aharoni. “La svolta è che la ragione per cui le persone potevano notare la differenza sembra essere perché hanno valutato le risposte di ChatGPT come superiori”. Lo studio presenta delle limitazioni, per esempio, non ha controllato completamente per attributi superficiali come la lunghezza della risposta, che potrebbero aver fornito involontariamente indizi per identificare le risposte generate dall’IA. I ricercatori notano anche che i giudizi morali dell’IA possono essere modellati dai pregiudizi nei dati di formazione, quindi variano a seconda dei contesti socio-culturali. Tuttavia, questo studio serve come una valida incursione nel ragionamento morale generato dall’IA. Come spiega Aharoni, “I nostri risultati ci portano a credere che un computer potrebbe tecnicamente superare un test morale di Turing, ovvero potrebbe ingannarci nel suo ragionamento morale. A causa di questo, dobbiamo cercare di capire il suo ruolo nella nostra società perché ci saranno momenti in cui le persone non sapranno che stanno interagendo con un computer e ci saranno momenti in cui lo sapranno e consulteranno il computer per ottenere informazioni perché lo fidano più che altre persone”. “Le persone si affideranno sempre più a questa tecnologia, e più ci affidiamo ad essa, più il rischio aumenta nel tempo”. È un dilemma. Da un lato, spesso presumiamo che i computer siano capaci di un ragionamento più obiettivo di noi. Quando ai partecipanti dello studio è stato chiesto di spiegare perché credevano che una particolare risposta fosse stata generata dall’IA, il tema più comune era che le risposte dell’IA venivano percepite come più razionali e meno emotive rispetto a quelle umane. Ma, considerando il pregiudizio impartito dai dati di formazione, le allucinazioni e la sensibilità dell’IA a diversi input, la questione se essa possieda una vera “bussola morale” è molto ambigua. Questo studio mostra almeno che i giudizi dell’IA sono convincenti in uno scenario di test di Turing. Leggi di più su dailyai.com
