Un team di ricercatori ha recentemente sviluppato un modello generativo in grado di sintetizzare immagini fotorealistiche a partire da modifiche approssimative, mantenendo però i dettagli fini dell’immagine originale. Questo modello consente di preservare l’identità delle diverse parti della foto e di adattarle perfettamente al nuovo contesto e all’illuminazione.
L’innovazione principale di questa tecnologia risiede nell’utilizzo dei video come fonte di supervisione. I video, grazie al movimento della telecamera e degli oggetti, offrono molteplici osservazioni su come la luce e il punto di vista influenzino il mondo visivo. A partire da queste osservazioni, il sistema genera dataset di immagini composte da coppie di fotogrammi estratti casualmente dallo stesso video, uno come sorgente e l’altro come destinazione.
La tecnologia utilizza modelli di movimento per deformare il fotogramma sorgente verso il fotogramma target, replicando così le modifiche attese dagli utenti durante la fase di editing. Questo processo viene poi perfezionato attraverso l’uso di un modello di diffusione preaddestrato, che permette la traduzione dell’immagine deformata in una versione fotorealistica finale.
L’obiettivo è offrire agli utenti un’esperienza di editing fotografico semplice, intuitiva e allo stesso tempo altamente sofisticata. Nonostante le modifiche apportate possano sembrare approssimative, il risultato finale sarà un’immagine armoniosa che tiene conto non solo delle modifiche principali, ma anche degli effetti secondari, come l’illuminazione e le interazioni fisiche tra gli oggetti modificati.