Preservare la diversità linguistica del mondo è l’obiettivo di un nuovo progetto di ricerca di Meta nell’ambito dell’intelligenza artificiale. I ricercatori hanno sviluppato modelli di intelligenza artificiale in grado di riconoscere oltre 4.000 lingue parlate, un numero 40 volte superiore rispetto alle tecnologie precedenti. Questi modelli permettono di ampliare la tecnologia di conversione testo-voce e voce-testo da circa 100 lingue a più di 1.100.
La tecnologia vocale multilingue potrebbe essere impiegata in molteplici settori, come applicazioni di realtà virtuale e aumentata, nonché servizi di messaggistica, consentendo agli utenti di comunicare nella propria lingua preferita e di essere compresi da tutti.
Attualmente, molte lingue nel mondo sono a rischio di estinzione, e le limitazioni delle attuali tecnologie di riconoscimento e generazione vocale potrebbero accelerare questa tendenza. Per facilitare l’accesso alle informazioni e l’utilizzo dei dispositivi nella lingua preferita delle persone, sono stati sviluppati questi modelli di intelligenza artificiale.
Il progetto si basa su una vasta raccolta di dati audio per migliaia di lingue, utilizzando testi religiosi come la Bibbia che sono stati tradotti in molte lingue diverse. Queste traduzioni offrono registrazioni audio pubblicamente accessibili di letture dei testi in diverse lingue. Grazie a ciò, è stato creato un ampio dataset di letture del Nuovo Testamento in oltre 1.100 lingue, fornendo in media 32 ore di dati per ogni lingua.
Attraverso l’analisi di registrazioni non etichettate di altre letture religiose cristiane, è stato possibile aumentare il numero di lingue riconosciute a oltre 4.000. I risultati mostrano che i modelli sviluppati funzionano allo stesso modo per le voci maschili e femminili, nonostante i dati siano prevalentemente costituiti da registrazioni di letture effettuate da oratori maschi. Inoltre, l’analisi ha dimostrato che il contenuto religioso delle registrazioni non influenza la produzione di linguaggio religioso da parte dei modelli.
Il progetto si propone di aumentare ulteriormente la copertura della tecnologia vocale multilingue, supportando ancora più lingue e affrontando la sfida di gestire i dialetti, un’area spesso complessa per le tecnologie vocali esistenti. L’apertura del codice e dei modelli alla comunità di ricerca permetterà di ampliare ulteriormente il progetto e contribuire a preservare le lingue del mondo, avvicinando sempre più le persone attraverso la tecnologia.