Imagen Editor e EditBench: Avanzamenti nell’inpainting guidato dal testo ottimizzato per Google Negli ultimi anni, la ricerca sull’inpainting di immagini guidato dal testo ha visto una serie di scoperte significative, inclusi modelli come Imagen, Parti e DALL-E 2. Questi progressi hanno avuto un impatto diretto su diversi ambiti correlati. In particolare, l’editing di immagini guidato dal testo (TGIE) è diventato un compito pratico che richiede la modifica di immagini generate o fotografate, anziché crearle ex novo. Questo tipo di editing rapido, automatizzato e controllabile rappresenta una soluzione comoda quando la creazione di nuove immagini richiederebbe troppo tempo o sarebbe poco fattibile, come nel caso della modifica di oggetti nelle foto di vacanza o nel perfezionamento dei dettagli di immagini generate da zero, come adorabili cuccioli. Inoltre, il TGIE rappresenta un’opportunità per migliorare l’addestramento dei modelli fondamentali. Infatti, i modelli multimodali richiedono dati diversificati per un corretto addestramento, e l’editing TGIE consente la generazione e la ricombinazione di dati sintetici di alta qualità, scalabili e ottimizzati per una distribuzione ottimale lungo qualsiasi asse desiderato.
“Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting”, un’importante ricerca che sarà presentata al CVPR 2023, introduce Imagen Editor, una soluzione all’avanguardia per l’inpainting con maschera. Questo modello permette all’utente di fornire istruzioni testuali insieme a un’area sovrapposta o “maschera” per indicare l’area dell’immagine da modificare. Inoltre, viene introdotto EditBench, un metodo che valuta la qualità dei modelli di editing delle immagini. A differenza dei metodi comuni che si limitano a verificare se un’immagine corrisponde a un testo specifico, EditBench si concentra su diversi tipi di attributi, oggetti e scene, offrendo una comprensione più dettagliata delle prestazioni dei modelli. In particolare, EditBench pone una forte enfasi sull’allineamento tra immagine e testo, senza trascurare la qualità visiva dell’immagine.
Con Imagen Editor, è possibile apportare modifiche localizzate alle aree desiderate di un’immagine utilizzando un’immagine di base, una maschera binaria e un prompt di testo. Il modello integra in modo significativo l’intento dell’utente e genera modifiche fotorealistiche.
Il fine-tuning di Imagen Editor su Imagen ha portato a un modello di alta qualità che offre rappresentazioni linguistiche migliorate, controllo dettagliato e risultati fedeli. Inoltre, grazie a tecniche innovative, come l’uso di maschere basate sul rilevamento degli oggetti e la concatenazione dei dati di input ad alta risoluzione, Imagen Editor riesce a migliorare la fedeltà delle modifiche effettuate
alle immagini. Il modello si basa su tre tecniche fondamentali: l’utilizzo di maschere basate sul rilevamento degli oggetti anziché maschere casuali, la condizionamento su input ad alta risoluzione e l’applicazione di una guida senza classificatore per garantire un forte allineamento tra immagine e testo.
Inoltre, la ricerca introduce anche EditBench, un dataset completo per la valutazione dell’inpainting guidato dal testo. Questo dataset contiene 240 immagini, suddivise tra immagini generate e immagini naturali, e copre una vasta gamma di tipi di linguaggio, tipologie di immagini e livelli di specificità del prompt di testo. EditBench consente di valutare le prestazioni dei modelli in modo dettagliato, considerando attributi, tipologie di oggetti e scene.
L’evaluazione dei modelli viene effettuata attraverso valutazioni umane, che confermano che Imagen Editor supera gli altri modelli in tutte le categorie di valutazione di EditBench. In particolare, Imagen Editor ottiene risultati eccellenti nella corretta adesione al testo, nella qualità delle immagini generate e nell’allineamento tra immagine e testo.
In conclusione, Imagen Editor e EditBench rappresentano un importante avanzamento nell’inpainting guidato dal testo e nella sua valutazione. Mentre Imagen Editor non è pubblicamente disponibile per ragioni di responsabilità nell’uso dell’IA, EditBench è stato rilasciato interamente per il beneficio della comunità di ricerca. Grazie a queste innovazioni, si aprono nuove prospettive per l’editing e la generazione di immagini guidate dal testo, offrendo soluzioni rapide, automatizzate e controllabili per la modifica delle immagini.