I modelli di linguaggio di grandi dimensioni (LLM) sono celebrati per le loro capacità avanzate in numerose attività. Tuttavia, recenti studi hanno rivelato che questi modelli, tra cui GPT-4, Claude, Gemini e altri, mostrano gravi lacune nel ragionamento su problemi apparentemente semplici. Un esperimento ha messo alla prova i modelli con un problema di senso comune, facilmente risolvibile dagli esseri umani: “Alice ha N fratelli e M sorelle. Quante sorelle ha il fratello di Alice?”.
I risultati hanno evidenziato che la maggior parte dei modelli non solo fallisce nel rispondere correttamente, ma lo fa con eccessiva sicurezza, fornendo spiegazioni apparentemente plausibili ma in realtà prive di senso. Anche modelli avanzati come GPT-4 e Claude 3 Opus, che occasionalmente risolvono correttamente il problema, mostrano fallimenti frequenti. Quando il problema è stato reso più complesso, i tassi di successo sono crollati quasi a zero.
Questo fenomeno solleva dubbi sulla reale capacità di ragionamento di questi modelli, nonostante le alte prestazioni in altre attività complesse. Le spiegazioni fornite dai modelli spesso confabulano ragionamenti inesatti, inducendo in errore gli utenti. Tentativi di correggere gli errori attraverso vari interventi, come il prompting migliorato, non hanno prodotto risultati migliori.
La comunità scientifica è ora chiamata a rivedere le capacità dichiarate di questi modelli e a sviluppare nuovi benchmark per identificare e affrontare queste carenze di ragionamento. Solo attraverso un’analisi approfondita e collaborativa sarà possibile migliorare lo stato attuale e guidare lo sviluppo di modelli di linguaggio che possano veramente eccellere in tutte le sfide poste.