Google e innovazione nell’editing di immagini: Introduzione di Imagen Editor e EditBench

Imagen Editor e EditBench: Avanzamenti nell’inpainting guidato dal testo ottimizzato per Google Negli ultimi anni, la ricerca sull’inpainting di immagini guidato dal testo ha visto una serie di scoperte significative, inclusi modelli come Imagen, Parti e DALL-E 2. Questi progressi hanno avuto un impatto diretto su diversi ambiti correlati. In particolare, l’editing di immagini guidato dal testo (TGIE) è diventato un compito pratico che richiede la modifica di immagini generate o fotografate, anziché crearle ex novo. Questo tipo di editing rapido, automatizzato e controllabile rappresenta una soluzione comoda quando la creazione di nuove immagini richiederebbe troppo tempo o sarebbe poco fattibile, come nel caso della modifica di oggetti nelle foto di vacanza o nel perfezionamento dei dettagli di immagini generate da zero, come adorabili cuccioli. Inoltre, il TGIE rappresenta un’opportunità per migliorare l’addestramento dei modelli fondamentali. Infatti, i modelli multimodali richiedono dati diversificati per un corretto addestramento, e l’editing TGIE consente la generazione e la ricombinazione di dati sintetici di alta qualità, scalabili e ottimizzati per una distribuzione ottimale lungo qualsiasi asse desiderato.

“Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting”, un’importante ricerca che sarà presentata al CVPR 2023, introduce Imagen Editor, una soluzione all’avanguardia per l’inpainting con maschera. Questo modello permette all’utente di fornire istruzioni testuali insieme a un’area sovrapposta o “maschera” per indicare l’area dell’immagine da modificare. Inoltre, viene introdotto EditBench, un metodo che valuta la qualità dei modelli di editing delle immagini. A differenza dei metodi comuni che si limitano a verificare se un’immagine corrisponde a un testo specifico, EditBench si concentra su diversi tipi di attributi, oggetti e scene, offrendo una comprensione più dettagliata delle prestazioni dei modelli. In particolare, EditBench pone una forte enfasi sull’allineamento tra immagine e testo, senza trascurare la qualità visiva dell’immagine.

Con Imagen Editor, è possibile apportare modifiche localizzate alle aree desiderate di un’immagine utilizzando un’immagine di base, una maschera binaria e un prompt di testo. Il modello integra in modo significativo l’intento dell’utente e genera modifiche fotorealistiche.

Il fine-tuning di Imagen Editor su Imagen ha portato a un modello di alta qualità che offre rappresentazioni linguistiche migliorate, controllo dettagliato e risultati fedeli. Inoltre, grazie a tecniche innovative, come l’uso di maschere basate sul rilevamento degli oggetti e la concatenazione dei dati di input ad alta risoluzione, Imagen Editor riesce a migliorare la fedeltà delle modifiche effettuate

alle immagini. Il modello si basa su tre tecniche fondamentali: l’utilizzo di maschere basate sul rilevamento degli oggetti anziché maschere casuali, la condizionamento su input ad alta risoluzione e l’applicazione di una guida senza classificatore per garantire un forte allineamento tra immagine e testo.

Inoltre, la ricerca introduce anche EditBench, un dataset completo per la valutazione dell’inpainting guidato dal testo. Questo dataset contiene 240 immagini, suddivise tra immagini generate e immagini naturali, e copre una vasta gamma di tipi di linguaggio, tipologie di immagini e livelli di specificità del prompt di testo. EditBench consente di valutare le prestazioni dei modelli in modo dettagliato, considerando attributi, tipologie di oggetti e scene.

L’evaluazione dei modelli viene effettuata attraverso valutazioni umane, che confermano che Imagen Editor supera gli altri modelli in tutte le categorie di valutazione di EditBench. In particolare, Imagen Editor ottiene risultati eccellenti nella corretta adesione al testo, nella qualità delle immagini generate e nell’allineamento tra immagine e testo.

In conclusione, Imagen Editor e EditBench rappresentano un importante avanzamento nell’inpainting guidato dal testo e nella sua valutazione. Mentre Imagen Editor non è pubblicamente disponibile per ragioni di responsabilità nell’uso dell’IA, EditBench è stato rilasciato interamente per il beneficio della comunità di ricerca. Grazie a queste innovazioni, si aprono nuove prospettive per l’editing e la generazione di immagini guidate dal testo, offrendo soluzioni rapide, automatizzate e controllabili per la modifica delle immagini.

NEWS AIopenmind su:

3D (6)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (39)Aeronautica (9)Africa (3)Agenti AI (1)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (7)AGID (1)Amazon (37)Ambiente (3)AMD (1)Android (6)Animali (6)Animazione (4)Anthropic (17)Anziani (1)App (10)Apple (63)Archeologia (3)Architettura (4)Archivi storici (1)Armi (3)Arredamento interni (2)Arte (28)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (54)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (19)Banca (3)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (7)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (52)Chip (3)Cina (54)Cinema (11)Claude (19)Clima (3)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (3)Computer quantistici (32)Computer Vision (3)Comuni italiani (1)Comunicazione (9)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (5)Copyright (14)Criptovalute (1)Cybersecurity (1)Dalle-2 (3)Dark web (2)Data center (2)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (10)Email (1)ENEA (2)Esercito (2)Etica (131)Europol (1)Eventi (7)Evento (7)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (5)Finanza (9)Finanziamenti Italia (3)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (19)Fotografia (110)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (19)Giappone (9)Giochi (7)Giornalismo (17)Giustizia (1)Google (304)Governo (7)Governo Italiano (3)Grafica (6)Guerra (12)Guida autonoma (5)Hong Kong (1)Hugging Face (3)IBM (7)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (3)Influencer (1)Informazione (9)Inghilterra (7)INPS (2)Intel (7)ISO (1)Istruzione (16)Jailbreaking (1)Kamala Harris (1)Lavoro (44)Libri (3)Linguistica computazionale (7)Linkedin (8)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (71)Medicina (27)Mercedes-Benz (1)Meta (88)Metaverso (17)Microsoft (183)Midjourney (18)Mobilità sostenibile (1)Moda (5)Modelli AI (42)Motori di Ricerca (12)Mozilla (2)Museo (1)Musica (37)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (36)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)Odore (1)OMS (1)ONU (1)Open Source (2)OpenAI (252)Opera (12)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (7)Pianeta (2)Plugin (1)Polizia (2)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Intelligenza Artificiale: Bruxelles prepara le linee guida contro i rischi inaccettabili

La Commissione Europea ha avviato un processo di consultazione rivolto alle parti interessate per definire le future linee guida sulla regolamentazione dell’Intelligenza Artificiale (IA)....

Occhiali Samsung XR: le nuove lenti intelligenti senza display, ma con tante funzioni avanzate

Samsung sta sviluppando occhiali intelligenti XR in collaborazione con Google, previsti per il lancio nella seconda metà del 2025. Secondo un report proveniente dalla...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines