Un’accelerazione su dispositivi mobili dei grandi modelli di diffusione tramite ottimizzazioni GPU-aware è fondamentale per l’inferenza di intelligenza artificiale on-device. L’esecuzione efficiente di modelli di diffusione come Stable Diffusion su GPU mobili richiede strategie di ottimizzazione specifiche, tra cui l’uso di moduli di attenzione migliorati per l’efficienza della memoria e l’implementazione della convoluzione veloce di Winograd per i layer di convoluzione 3×3. Inoltre, l’applicazione di fusioni di operatori specializzate migliora l’efficienza della memoria per operazioni comuni come GELU e la normalizzazione del gruppo. Queste ottimizzazioni riducono la latenza complessiva dell’inferenza di modelli di diffusione su dispositivi mobili, consentendo un’esperienza utente fluida e un utilizzo efficiente delle risorse. I risultati dei test mostrano che, con le nostre ottimizzazioni, Stable Diffusion può essere eseguito su smartphone di fascia alta in meno di 12 secondi, garantendo prestazioni elevate senza compromettere la qualità delle immagini. L’obiettivo principale di questo lavoro è fornire soluzioni pratiche per l’inferenza on-device di modelli di intelligenza artificiale su dispositivi mobili, tenendo conto delle limitazioni delle risorse e delle esigenze di privacy degli utenti.
Accelerazione on-device di grandi modelli di diffusione tramite ottimizzazioni GPU-aware
Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.