Stable Virtual Camera, il nuovo modello di diffusione multi-view, trasforma immagini 2D in video 3D immersivi con traiettorie dinamiche e controllo completo della telecamera. È disponibile per la ricerca con licenza non commerciale.
Stable Virtual Camera è il nuovo strumento AI presentato da Stability AI in anteprima di ricerca. Il modello consente di generare video 3D realistici da una singola immagine o da un massimo di 32 input, senza necessità di ricostruzione complessa o ottimizzazioni specifiche per la scena. L’obiettivo è democratizzare la creazione di contenuti immersivi, rendendo accessibile la produzione di video 3D anche senza esperienze avanzate.
Il sistema supporta 14 traiettorie dinamiche predefinite della telecamera, tra cui 360°, spirale, dolly zoom e panoramiche, oltre a percorsi personalizzati definiti dall’utente. I video possono raggiungere i 1.000 frame mantenendo coerenza visiva e fluidità tra le transizioni.
Dal punto di vista tecnico, il modello si basa su una procedura di campionamento a due fasi: genera viste di ancoraggio e successivamente rende quelle di destinazione in blocchi. Questa struttura consente al modello di adattarsi a diverse lunghezze di input e output, offrendo risultati coerenti. Nei benchmark di sintesi della vista (NVS), Stable Virtual Camera supera modelli come ViewCrafter e CAT3D, sia in termini di qualità percettiva (LPIPS) che accuratezza (PSNR).
Tuttavia, il modello presenta ancora limitazioni su soggetti dinamici (umani, animali, acqua) e traiettorie complesse. È disponibile su GitHub e Hugging Face con licenza Non-Commerciale.
Fonti:
• Stability AI – stability.ai
• Hugging Face
• GitHub – github.com/Stability-AI
