Google e innovazione nell’editing di immagini: Introduzione di Imagen Editor e EditBench

Imagen Editor e EditBench: Avanzamenti nell’inpainting guidato dal testo ottimizzato per Google Negli ultimi anni, la ricerca sull’inpainting di immagini guidato dal testo ha visto una serie di scoperte significative, inclusi modelli come Imagen, Parti e DALL-E 2. Questi progressi hanno avuto un impatto diretto su diversi ambiti correlati. In particolare, l’editing di immagini guidato dal testo (TGIE) è diventato un compito pratico che richiede la modifica di immagini generate o fotografate, anziché crearle ex novo. Questo tipo di editing rapido, automatizzato e controllabile rappresenta una soluzione comoda quando la creazione di nuove immagini richiederebbe troppo tempo o sarebbe poco fattibile, come nel caso della modifica di oggetti nelle foto di vacanza o nel perfezionamento dei dettagli di immagini generate da zero, come adorabili cuccioli. Inoltre, il TGIE rappresenta un’opportunità per migliorare l’addestramento dei modelli fondamentali. Infatti, i modelli multimodali richiedono dati diversificati per un corretto addestramento, e l’editing TGIE consente la generazione e la ricombinazione di dati sintetici di alta qualità, scalabili e ottimizzati per una distribuzione ottimale lungo qualsiasi asse desiderato.

“Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting”, un’importante ricerca che sarà presentata al CVPR 2023, introduce Imagen Editor, una soluzione all’avanguardia per l’inpainting con maschera. Questo modello permette all’utente di fornire istruzioni testuali insieme a un’area sovrapposta o “maschera” per indicare l’area dell’immagine da modificare. Inoltre, viene introdotto EditBench, un metodo che valuta la qualità dei modelli di editing delle immagini. A differenza dei metodi comuni che si limitano a verificare se un’immagine corrisponde a un testo specifico, EditBench si concentra su diversi tipi di attributi, oggetti e scene, offrendo una comprensione più dettagliata delle prestazioni dei modelli. In particolare, EditBench pone una forte enfasi sull’allineamento tra immagine e testo, senza trascurare la qualità visiva dell’immagine.

Con Imagen Editor, è possibile apportare modifiche localizzate alle aree desiderate di un’immagine utilizzando un’immagine di base, una maschera binaria e un prompt di testo. Il modello integra in modo significativo l’intento dell’utente e genera modifiche fotorealistiche.

Il fine-tuning di Imagen Editor su Imagen ha portato a un modello di alta qualità che offre rappresentazioni linguistiche migliorate, controllo dettagliato e risultati fedeli. Inoltre, grazie a tecniche innovative, come l’uso di maschere basate sul rilevamento degli oggetti e la concatenazione dei dati di input ad alta risoluzione, Imagen Editor riesce a migliorare la fedeltà delle modifiche effettuate

alle immagini. Il modello si basa su tre tecniche fondamentali: l’utilizzo di maschere basate sul rilevamento degli oggetti anziché maschere casuali, la condizionamento su input ad alta risoluzione e l’applicazione di una guida senza classificatore per garantire un forte allineamento tra immagine e testo.

Inoltre, la ricerca introduce anche EditBench, un dataset completo per la valutazione dell’inpainting guidato dal testo. Questo dataset contiene 240 immagini, suddivise tra immagini generate e immagini naturali, e copre una vasta gamma di tipi di linguaggio, tipologie di immagini e livelli di specificità del prompt di testo. EditBench consente di valutare le prestazioni dei modelli in modo dettagliato, considerando attributi, tipologie di oggetti e scene.

L’evaluazione dei modelli viene effettuata attraverso valutazioni umane, che confermano che Imagen Editor supera gli altri modelli in tutte le categorie di valutazione di EditBench. In particolare, Imagen Editor ottiene risultati eccellenti nella corretta adesione al testo, nella qualità delle immagini generate e nell’allineamento tra immagine e testo.

In conclusione, Imagen Editor e EditBench rappresentano un importante avanzamento nell’inpainting guidato dal testo e nella sua valutazione. Mentre Imagen Editor non è pubblicamente disponibile per ragioni di responsabilità nell’uso dell’IA, EditBench è stato rilasciato interamente per il beneficio della comunità di ricerca. Grazie a queste innovazioni, si aprono nuove prospettive per l’editing e la generazione di immagini guidate dal testo, offrendo soluzioni rapide, automatizzate e controllabili per la modifica delle immagini.

Cookie	Durata	Descrizione
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Durata	Descrizione
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_198202384_1	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Durata	Descrizione
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Google e innovazione nell’editing di immagini: Introduzione di Imagen Editor e EditBench

NEWS AIopenmind su:

Iscrizione NEWSLETTER

Visita le sezioni del sito

Link utili

Media Partner