Il 15 maggio 2023, Google Research ha pubblicato un post sul proprio blog intitolato “I modelli di lingua più grandi imparano in contesti differenti”, scritto da Jerry Wei, studente ricercatore, e Denny Zhou, Principal Scientist. I ricercatori spiegano che i modelli di lingua sono diventati molto avanzati grazie alla loro capacità di apprendere in-contexto (ICL), un processo in cui i modelli sono stimolati con alcuni esempi di input-label prima di eseguire il compito su un esempio di valutazione non visto. Questa abilità è resa possibile dal loro utilizzo di conoscenze semantiche precedentemente apprese per prevedere le etichette e dalle loro abilità di apprendere i mapping input-label dai contesti forniti.
Nel post, i ricercatori esaminano come questi due fattori interagiscono nei modelli di lingua di diversa scala in ambienti di apprendimento in-contexto, tramite l’analisi di due diverse impostazioni. La prima è l’apprendimento in-contexto con etichette invertite, dove i modelli sono stimolati con esempi che presentano etichette invertite rispetto alle conoscenze semantiche precedentemente apprese, costringendoli a ignorare queste ultime per eseguire correttamente il compito. La seconda impostazione è l’apprendimento in-contexto con etichette semanticamente non correlate, dove le etichette in contesto sono sostituite con parole che non sono semanticamente correlate al compito che si intende eseguire, costringendo il modello a eseguire il mapping input-label.
I ricercatori hanno testato cinque diverse famiglie di modelli di lingua su sette diversi compiti di elaborazione del linguaggio naturale, tra cui l’analisi del sentimento e la rilevazione dell’odio. Hanno scoperto che i modelli di lingua più grandi possono ignorare le conoscenze semantiche apprese precedentemente quando sono presentate etichette invertite in contesto, mentre i modelli di lingua più piccoli non possono farlo. Hanno anche scoperto che i modelli di lingua più piccoli dipendono maggiormente dalle conoscenze semantiche apprese precedentemente rispetto ai modelli di lingua più grandi quando sono presenti etichette semanticamente non correlate.
I ricercatori ritengono che questi risultati possano essere utilizzati per migliorare le prestazioni dei modelli di lingua, attraverso la messa a punto degli algoritmi di apprendimento in-contexto e la scelta dei modelli più adatti per ogni compito di elaborazione del linguaggio naturale.