MusicGen è un progetto innovativo che si propone di affrontare la sfida della generazione musicale condizionale. Questo rivoluzionario modello di linguaggio (LM) opera su diverse tracce di rappresentazione musicale discreta compressa, cioè token. A differenza delle ricerche precedenti, MusicGen è composto da un unico transformer LM a un solo stadio, insieme a efficienti schemi di interleaving dei token, il che elimina la necessità di concatenare diversi modelli, ad esempio in modalità gerarchica o di upsampling. Seguendo questa approccio, dimostriamo come MusicGen possa generare campioni di alta qualità, condizionati da una descrizione testuale o da caratteristiche melodiche, consentendo un miglior controllo sull’output generato. Abbiamo condotto un’ampia valutazione empirica, prendendo in considerazione sia studi automatici che umani, dimostrando che l’approccio proposto è superiore ai baselines valutati su un benchmark standard di testo-musica. Attraverso gli studi di ablation, abbiamo evidenziato l’importanza di ciascuno dei componenti che compongono MusicGen. Campioni musicali, codice e modelli sono disponibili su https://github.com/facebookresearch/audiocraft.
Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.