Un recente studio mette in discussione la capacità dei Large Language Models (LLM) di simulare il ragionamento umano. Nonostante siano in grado di rispecchiare in parte comportamenti osservati in esperimenti economici e sociali, i modelli linguistici si rivelano incapaci di replicare pienamente la distribuzione dei comportamenti umani in semplici giochi strategici.
Utilizzando l’11-20 money request game, i ricercatori hanno testato otto diversi LLM, inclusi GPT-4 e Claude3. I risultati evidenziano che le risposte dei modelli divergono significativamente da quelle degli esseri umani e sono altamente sensibili a variazioni di contesto, lingua e formulazione delle istruzioni.
Gli approcci avanzati, come la fine-tuning o l’uso di esempi specifici, migliorano parzialmente le performance, ma nessun modello riesce a replicare con precisione i pattern comportamentali umani. Questo solleva dubbi sull’affidabilità degli LLM come surrogati per lo studio della psicologia o del comportamento umano.
Gli studiosi sottolineano che le differenze risiedono nelle fondamenta stesse dei modelli: mentre gli LLM si basano su schemi probabilistici derivati da grandi quantità di dati, il ragionamento umano è plasmato da esperienze corporee e obiettivi evolutivi. Questo distacco rende difficile l’utilizzo dell’I.A. per scopi scientifici che richiedano profondità cognitiva.
Alla luce di queste evidenze, gli autori dello studio raccomandano un approccio prudente nell’applicazione degli LLM nella ricerca sociale e suggeriscono criteri rigorosi per valutarne l’affidabilità.