Un nuovo studio condotto da un team di ricercatori, tra cui Iman Mirzadeh, Keivan Alizadeh e Hooman Shahrokhi, ha rivelato i limiti dei modelli di linguaggio di grandi dimensioni (LLM) nel campo del ragionamento matematico. Sebbene i recenti sviluppi abbiano migliorato le capacità dei modelli nel rispondere a domande di livello scolastico, è emerso che questi miglioramenti non riflettono necessariamente un vero progresso nel ragionamento logico.
Utilizzando il benchmark GSM8K, gli autori hanno sottolineato come le prestazioni di questi modelli possano variare significativamente con semplici cambiamenti nelle domande, come la modifica dei valori numerici. Per comprendere meglio queste limitazioni, è stato introdotto GSM-Symbolic, un nuovo strumento di valutazione che genera domande attraverso template simbolici, permettendo un’analisi più dettagliata e affidabile delle capacità di ragionamento dei modelli.
Dallo studio emerge che le prestazioni dei modelli di punta calano drasticamente quando viene aumentato il numero di clausole in una domanda, evidenziando la fragilità nel ragionamento matematico. Anche l’aggiunta di clausole non direttamente legate alla risposta finale porta a un declino delle prestazioni fino al 65%. Questo comportamento suggerisce che gli LLM non operano attraverso un ragionamento logico genuino, ma piuttosto cercano di riprodurre i passi osservati durante l’addestramento.
Lo studio offre una prospettiva più chiara sulle limitazioni dei modelli di linguaggio, sollevando interrogativi sulla reale portata delle loro capacità di ragionamento simbolico e matematico.