Un nuovo modello generativo firmato NVIDIA promette di cambiare il modo in cui vengono creati, trasformati e manipolati suoni, musiche e voci. Il sistema, battezzato Fugatto (Foundational Generative Audio Transformer Opus 1), rappresenta una pietra miliare nel campo dell’audio sintetizzato.
Grazie a istruzioni testuali o audio, Fugatto può generare brani musicali, modificare accenti e intonazioni vocali e persino creare suoni inediti. Il tutto con una flessibilità senza precedenti. “È uno strumento incredibile per creare nuovi suoni in tempo reale,” ha commentato il produttore multi-platino Ido Zmishlany.
Fugatto non si limita a svolgere compiti isolati ma eccelle nella combinazione di istruzioni complesse, come creare una voce triste con un accento francese. Questa capacità di combinare attributi emerge da una tecnica chiamata ComposableART, che offre agli utenti un controllo artistico avanzato.
L’applicabilità è vasta: dalla produzione musicale all’advertising, fino ai videogiochi e agli strumenti di apprendimento linguistico. Per esempio, i videogame possono generare effetti sonori in tempo reale, mentre le piattaforme educative potrebbero personalizzare i corsi con voci familiari.
Il modello si basa su 2,5 miliardi di parametri ed è stato addestrato su sistemi NVIDIA DGX, utilizzando una banca dati di milioni di campioni audio. La complessità del progetto ha richiesto oltre un anno di lavoro da parte di un team internazionale, con risultati sorprendenti, come far “abbaiare” una tromba o trasformare il suono di un temporale in un’alba melodiosa.
Con Fugatto, NVIDIA inaugura una nuova era per la creazione sonora, ponendo le basi per un futuro dove il suono diventa arte generativa su richiesta.