I modelli linguistici di grandi dimensioni (LLMs) stanno trasformando la ricerca nelle scienze umane e sociali, ma la loro comprensione della storia a livello accademico è ancora poco esplorata. Uno studio recente ha affrontato questa lacuna introducendo il History Seshat Test for LLMs (Hist-LLM), basato sul Seshat Global History Databank, un vasto archivio che racchiude 36.000 dati su 600 società storiche, dalla preistoria alla Rivoluzione Industriale.
Il test ha valutato sette modelli delle famiglie Gemini, OpenAI e Llama, misurandone le capacità su una varietà di argomenti storici globali. I risultati mostrano che gli LLM superano il livello del caso (25%) con una precisione bilanciata che varia dal 33,6% (Llama-3.1-8B) al 46% (GPT-4-Turbo). Tuttavia, restano lontani dal livello di competenza di esperti umani.
Interessante notare che i modelli mostrano una maggiore accuratezza sulle epoche più antiche, con performance regionali relativamente equilibrate. Tuttavia, le zone meno rappresentate nei database storici, come l’Oceania e l’Africa subsahariana, registrano i punteggi più bassi anche nei modelli più avanzati.
Lo studio evidenzia sia le potenzialità che i limiti degli LLM nella comprensione storica. Nonostante una conoscenza che si avvicina a quella esperta in alcuni ambiti, rimangono ampi margini di miglioramento, soprattutto nella gestione delle lacune informative e nell’equilibrio tra le regioni storiche.
Questo lavoro rappresenta un passo avanti verso lo sviluppo di modelli più affidabili per la ricerca storica, sottolineando l’importanza di dataset diversificati e di qualità per migliorare le capacità dei modelli di intelligenza artificiale.