Un recente studio ha evidenziato una crescente quantità di letteratura sulla relazione tra le reti neurali ampie (NN) e i processi gaussiani (GP), identificando un’equivalenza tra i due per una varietà di architetture NN. Tale equivalenza consente, ad esempio, un’approssimazione accurata del comportamento delle NN bayesiane ampie senza campionamenti di tipo MCMC o approssimazioni variazionali, o la caratterizzazione della distribuzione delle NN ampie inizializzate casualmente ottimizzate mediante discesa del gradiente senza eseguire mai un ottimizzatore. Lo studio fornisce un’estensione rigorosa di questi risultati alle NN che coinvolgono strati di attenzione, mostrando che, a differenza dell’attenzione a singola testa, che induce comportamenti non gaussiani, le architetture di attenzione a più teste si comportano come GP man mano che il numero di teste tende all’infinito. Si discutono inoltre gli effetti delle codifiche posizionali e della normalizzazione dei livelli e si propongono modifiche al meccanismo di attenzione che portano a risultati migliorati sia per NN finite che infinitamente ampie. Si valutano empiricamente i kernel di attenzione, ottenendo un miglioramento moderato rispetto al precedente stato dell’arte su CIFAR-10 per GP senza kernel addestrabili e preelaborazione avanzata dei dati. Infine, si introducono nuove funzionalità nella libreria Neural Tangents (Novak et al., 2020) che consentono l’applicazione di modelli NNGP/NTK, con e senza attenzione, a sequenze di lunghezza variabile, con un esempio sul dataset delle recensioni IMDb.
__________
Infinite attention: NNGP and NTK for deep attention networks