Sebbene l’intelligenza artificiale possa sembrare onnipresente, essa opera principalmente in una minima parte delle 7.000 lingue del mondo, lasciando indietro un’enorme porzione della popolazione globale. NVIDIA mira a risolvere questo evidente punto debole, in particolare in Europa.
L’azienda ha appena rilasciato una nuova e potente serie di strumenti open-source per dare agli sviluppatori la possibilità di creare un’intelligenza artificiale vocale di alta qualità per 25 lingue europee diverse. Questo include le lingue principali, ma soprattutto offre un’ancora di salvezza a quelle spesso trascurate dalle grandi aziende, come il croato, l’estone e il maltese.
L’obiettivo è quello di permettere agli sviluppatori di creare il tipo di strumenti vocali che molti di noi danno per scontati, dai chatbot multilingue che ti capiscono davvero ai bot del servizio clienti e ai servizi di traduzione che funzionano in un batter d’occhio.
Il fulcro di questa iniziativa è Granary, un’enorme biblioteca del parlato umano. Contiene circa un milione di ore di audio, tutte curate per aiutare l’intelligenza artificiale a imparare le sfumature del riconoscimento vocale e della traduzione.
Per sfruttare questi dati vocali, NVIDIA fornisce anche due nuovi modelli di intelligenza artificiale progettati per le attività linguistiche:
- Canary-1b-v2, un modello di grandi dimensioni costruito per garantire un’elevata precisione nei lavori di trascrizione e traduzione complessi.
- Parakeet-tdt-0.6b-v3, progettato per applicazioni in tempo reale in cui la velocità è fondamentale.
Se vuoi approfondire la scienza che sta alla base, il documento su Granary sarà presentato alla conferenza Interspeech che si terrà nei Paesi Bassi questo mese. Per gli sviluppatori desiderosi di sporcarsi le mani, il set di dati ed entrambi i modelli sono già disponibili su Hugging Face.
La vera magia, tuttavia, sta nel modo in cui questi dati sono stati creati. Sappiamo tutti che l’addestramento dell’intelligenza artificiale richiede grandi quantità di dati, ma ottenerli è di solito un processo lento, costoso e francamente noioso di annotazione umana.
Per ovviare a questo problema, il team speech AI di NVIDIA, in collaborazione con i ricercatori della Carnegie Mellon University e della Fondazione Bruno Kessler, ha creato una pipeline automatizzata. Utilizzando il proprio toolkit NeMo, sono riusciti a prendere l’audio grezzo e non etichettato e a trasformarlo in dati strutturati di alta qualità da cui l’intelligenza artificiale può imparare.
Non si tratta solo di un risultato tecnico, ma di un enorme passo avanti per l’inclusività digitale. Significa che uno sviluppatore di Riga o Zagabria può finalmente costruire strumenti di intelligenza artificiale alimentati dalla voce che comprendono correttamente le loro lingue locali. E possono farlo in modo più efficiente. Il team di ricerca ha scoperto che i dati di Granary sono così efficaci che per raggiungere un livello di accuratezza prefissato ne serve circa la metà rispetto ad altri set di dati popolari.
I due nuovi modelli dimostrano questa potenza. Canary è una vera e propria bestia, in grado di offrire una qualità di traduzione e trascrizione in grado di competere con modelli tre volte più grandi, ma con una velocità fino a dieci volte superiore. Parakeet, invece, è in grado di analizzare la registrazione di una riunione di 24 minuti in un colpo solo, riuscendo a capire automaticamente la lingua parlata. Entrambi i modelli sono abbastanza intelligenti da gestire la punteggiatura, la capitalizzazione e da fornire timestamp a livello di parola, come richiesto per la creazione di applicazioni di livello professionale.
Mettendo questi potenti strumenti e le metodologie che li supportano nelle mani della comunità globale degli sviluppatori, NVIDIA non si limita a rilasciare un prodotto. Sta dando il via a una nuova ondata di innovazione, sperando di creare un mondo in cui l’intelligenza artificiale parli la tua lingua, indipendentemente dalla tua provenienza.
(Foto di Aedrian Salazar)