Google ha presentato “Lumiere”, un innovativo modello di diffusione spazio-temporale per la generazione di video. Questo modello introduce un’architettura Space-Time U-Net, capace di generare l’intera durata temporale di un video in un’unica passata del modello. A differenza dei modelli video esistenti che sintetizzano keyframe lontani seguiti da una super risoluzione temporale, Lumiere affronta la sfida di ottenere coerenza temporale globale. Grazie a un campionamento spaziale e temporale, e all’utilizzo di un modello di diffusione testo-immagine pre-addestrato, Lumiere apprende a generare direttamente video a bassa risoluzione a frame completo con un rateo temporale elevato. I risultati mostrano una generazione di testo-a-video all’avanguardia, con applicazioni che spaziano dalla creazione di contenuti all’editing video, inclusi image-to-video, video inpainting e generazione stilizzata.
Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.