Meta rilascia i modelli di Llama 3.1, mantenendo una strategia open

Meta ha rilasciato i suoi modelli Llama 3.1 aggiornati nelle versioni 8B, 70B e 405B e si è impegnata a rispettare la visione open source di Mark Zuckerberg per il futuro dell’intelligenza artificiale.

Le nuove aggiunte alla famiglia di modelli Llama di Meta sono dotate di una lunghezza di contesto estesa a 128k e del supporto di otto lingue.

Meta afferma che l’attesissimo modello 405B dimostra “flessibilità, controllo e capacità all’avanguardia senza pari, in grado di rivaleggiare con i migliori modelli closed source” Meta sostiene inoltre che Llama 3.1 405B è “il modello di fondazione open source più grande e più capace al mondo”

Con i costi di calcolo da capogiro spesi per addestrare modelli sempre più grandi, si è speculato molto sul fatto che il modello di punta 405B di Meta potrebbe essere il suo primo modello a pagamento.

Llama 3.1 405B è stato addestrato su oltre 15 trilioni di token utilizzando 16.000 NVIDIA H100, con un probabile costo di centinaia di milioni di dollari.

In un post sul blog, il CEO di Meta, Mark Zuckerberg, ha ribadito che l’AI open source è la strada da seguire e che il rilascio di Llama 3.1 è il passo successivo “verso l’AI open source che diventa lo standard del settore”

I modelli di Llama 3.1 sono liberi di essere scaricati e modificati o perfezionati con una suite di servizi di Amazon, Databricks e NVIDIA.

I modelli sono disponibili anche su fornitori di servizi cloud come AWS, Azure, Google e Oracle.

Da oggi, l’open source è in prima linea. Presentazione di Llama 3.1: I nostri modelli più performanti.

Oggi rilasciamo una serie di nuovi modelli Llama 3.1, tra cui il tanto atteso 405B. Questi modelli offrono migliori capacità di ragionamento, un contesto più ampio di 128K token… pic.twitter.com/1iKpBJuReD

– AI at Meta (@AIatMeta) 23 luglio 2024

Prestazioni

Meta afferma di aver testato i suoi modelli su oltre 150 set di dati di riferimento e ha pubblicato i risultati dei benchmark più comuni per mostrare come i suoi nuovi modelli si posizionano rispetto ad altri modelli leader.

Non c’è molto che separa Llama 3.1 405B da GPT-4o e Claude 3.5 Sonnet. Ecco i dati relativi al modello 405B e alle versioni più piccole 8B e 70B.

Meta rilascia i modelli di Llama 3.1, mantenendo una strategia open — Confronto tra il benchmark di Llama 3.1 405B e gli altri modelli principali. Fonte: Meta: Meta

Meta ha anche effettuato “valutazioni umane approfondite che confrontano Llama 3.1 con i modelli concorrenti in scenari reali”

Questi dati si basano sul fatto che gli utenti decidono se preferiscono la risposta di un modello o di un altro.

La valutazione umana di Llama 3.1 405B riflette una parità simile a quella rivelata dai dati di benchmark.

Meta afferma che il suo modello è veramente aperto: i pesi del modello Llama 3.1 sono disponibili per il download, anche se i dati di addestramento non sono stati condivisi. L’azienda ha inoltre modificato la licenza per consentire l’utilizzo dei modelli Llama per migliorare altri modelli di intelligenza artificiale.

La libertà di perfezionare, modificare e utilizzare i modelli di Llama senza restrizioni farà suonare un campanello d’allarme per i critici dell’ IA open source.

Zuckerberg sostiene che un approccio open source è il modo migliore per evitare danni involontari. Se un modello di intelligenza artificiale è aperto al controllo, secondo Zuckerberg, è meno probabile che sviluppi comportamenti emergenti pericolosi che altrimenti sfuggirebbero a modelli chiusi.

Per quanto riguarda il potenziale di danno intenzionale, Zuckerberg afferma: “Finché tutti avranno accesso a generazioni simili di modelli – cosa che l’open source promuove – i governi e le istituzioni con maggiori risorse di calcolo saranno in grado di controllare i cattivi attori con meno calcolo”

Per quanto riguarda il rischio che avversari statali come la Cina accedano ai modelli di Meta, Zuckerberg afferma che gli sforzi per tenerli fuori dalle mani dei cinesi non funzioneranno.

“I nostri avversari sono bravissimi nello spionaggio, rubare modelli che stanno in una chiavetta è relativamente facile, e la maggior parte delle aziende tecnologiche non opera in modo tale da rendere questo più difficile”, ha spiegato.

L’entusiasmo per un modello di intelligenza artificiale open source come Llama 3.1 405B che sfida i grandi modelli chiusi è giustificato.

Ma con i sussurri di GPT-5 e Claude 3.5 Opus che aspettano dietro le quinte, i risultati di questi benchmark potrebbero non invecchiare molto bene.

Leggi di più su dailyai.com