Google Labs ha lanciato negli Stati Uniti Whisk, un nuovo esperimento di intelligenza artificiale generativa che promette di rivoluzionare il processo creativo attraverso l’uso di immagini. A differenza dei tradizionali generatori di immagini basati su prompt testuali, Whisk permette agli utenti di utilizzare immagini come input, aprendo nuove frontiere nell’esplorazione visiva.
Il funzionamento di Whisk è semplice quanto innovativo: l’utente può inserire fino a tre immagini, una per il soggetto, una per la scena e una per lo stile. L’IA, basandosi sul modello Gemini, analizza automaticamente le immagini e ne crea descrizioni dettagliate. Queste descrizioni vengono poi elaborate da Imagen 3, l’ultimo modello di generazione di immagini di Google, per creare nuove immagini che catturano l'”essenza” dei soggetti originali, senza replicarli fedelmente.
Questo approccio permette di remixare soggetti, scene e stili in modi inediti, generando risultati sorprendenti e stimolanti. Whisk non si propone come un editor di immagini tradizionale, ma come uno strumento per l’esplorazione rapida di idee, offrendo la possibilità di generare decine di varianti e scaricare quelle preferite.
Come sottolineato da Tommaso Iljic, Direttore della gestione dei prodotti di Google Labs, e Nicole Brichtova, Responsabile del prodotto di Google DeepMind, Whisk è stato concepito per un’esplorazione visiva rapida, non per modifiche precise al pixel. L’obiettivo è fornire ai creativi un nuovo strumento per dare forma alle loro idee in modo intuitivo e divertente. Whisk è attualmente disponibile negli Stati Uniti su labs.google/whisk.