Nel suo studio più recente, si esplora il lavoro svolto da Apple riguardante l’utilizzo di modelli linguistici specializzati con inferenza economica da dati di dominio limitato. Il lavoro sottolinea come i modelli linguistici di grandi dimensioni siano diventati uno strumento versatile ma sfidante da applicare a compiti privi di ampi budget di inferenza e set di addestramento in dominio.
Il documento formalizza queste limitazioni e distingue quattro variabili importanti: il budget di preaddestramento, il budget di specializzazione, il budget di inferenza e la dimensione del set di addestramento in dominio.
Attraverso questi scenari, vengono confrontati diversi approcci presenti nella letteratura sull’apprendimento automatico.
Limitati dal costo dell’inferenza, vengono individuate migliori alternative alla pratica standard di addestrare modelli trasformer vaniglia molto grandi.
In particolare, si evidenzia che le iper-reti e le miscele di esperti hanno una perplessità migliore per grandi budget di preaddestramento, mentre i modelli più piccoli addestrati su dataset campionati per importanza sono attraenti per grandi budget di specializzazione.
_____
Specialized Language Models with Cheap Inference from Limited Domain Data