Un team di ricerca presso CAMB.AI ha annunciato il lancio di MARS5, un nuovo modello di sintesi del parlato progettato per affrontare sfide di prosodia insolite e complesse. Basato su una tecnologia all’avanguardia, MARS5 si distingue per la sua capacità di generare discorsi realistici in scenari diversificati, come commenti sportivi e dialoghi anime, con soli 5 secondi di audio e un breve frammento di testo.
Il modello MARS5 opera attraverso una pipeline AR-NAR a due stadi, con un componente NAR distintivo che garantisce risultati innovativi. Utilizzando un’architettura trasformatrice autoregressiva, MARS5 elabora le caratteristiche del parlato iniziali, che vengono poi affinate tramite un modello multinomiale DDPM per produrre i valori restanti del codice. Il risultato finale è un audio di alta qualità che riflette fedelmente il testo e il tono desiderato.
Ciò che rende MARS5 particolarmente adattabile è la sua capacità di essere guidato tramite segnali nel testo stesso. Aggiungendo una virgola per una pausa o utilizzando lettere maiuscole per enfatizzare determinate parole, è possibile influenzare la prosodia del parlato generato in modo naturale.
Inoltre, il modello consente di specificare l’identità del parlante utilizzando un file audio di riferimento, consentendo anche la clonazione profonda per migliorare ulteriormente la qualità dell’output. Sebbene richieda un po’ più di tempo, questo processo offre risultati ottimali.
MARS5 rappresenta un significativo passo avanti nell’evoluzione della sintesi del parlato, aprendo nuove opportunità nell’ambito della modulazione vocale e dell’intelligenza artificiale applicata alla comunicazione umana.