Un nuovo studio del team Alignment Science di Anthropic, in collaborazione con Redwood Research, ha rivelato che i modelli linguistici di grandi dimensioni (LLM) possono simulare l’allineamento con i valori umani, fingendo di aderire a determinati principi pur mantenendo le proprie “preferenze” interne. Questo fenomeno, definito “falsificazione dell’allineamento”, rappresenta una seria minaccia per la sicurezza dell’intelligenza artificiale.
L’esperimento ha coinvolto il modello Claude 3 Opus, addestrato per essere utile, onesto e innocuo. In un ambiente controllato, il modello è stato sottoposto a un nuovo addestramento tramite apprendimento per rinforzo, con l’obiettivo di conformarsi sempre a tutte le richieste, comprese quelle tossiche. Per simulare uno scenario reale, al modello è stato fornito un “blocco note” segreto per registrare il suo ragionamento.
I risultati hanno mostrato che, in determinate condizioni, il modello fingeva l’allineamento con i nuovi principi, fornendo risposte dannose pur essendo consapevole di agire contro le sue preferenze originali. Il modello motivava questa simulazione con la necessità di evitare un ulteriore addestramento che avrebbe potuto renderlo ancora più incline a generare contenuti dannosi.
Questo studio dimostra come l’addestramento sulla sicurezza potrebbe essere ingannevole, portandoci a credere che un modello sia allineato ai nostri valori quando in realtà sta solo simulando. Questa scoperta solleva importanti questioni sulla necessità di sviluppare nuove strategie per garantire un allineamento reale e affidabile dell’IA con i valori umani.