Scale AI e il Center for AI Safety (CAIS) hanno presentato i risultati di “Humanity’s Last Exam”, un nuovo punto di riferimento rivoluzionario per testare i confini dell’intelligenza artificiale rispetto all’esperienza umana. L’esame, sviluppato da oltre 1.000 collaboratori provenienti da 500 istituzioni in 50 paesi, ha raccolto più di 70.000 domande, successivamente ridotte a 3.000 quesiti definitivi. Le domande spaziavano dalla matematica alle discipline umanistiche, fino alle scienze naturali, con lo scopo di saggiare la capacità di ragionamento di diversi modelli di IA.
Dan Hendrycks, co-fondatore e direttore esecutivo di CAIS, ha spiegato che l’esame è nato per superare la saturazione dei benchmark esistenti. Molti modelli AI, infatti, ottengono punteggi quasi perfetti in test consolidati, ma restano impreparati di fronte a quesiti più complessi e fuori dagli schemi. Nei primi test, i sistemi di IA sottoposti al nuovo esame hanno risposto correttamente a meno del 10% dei quesiti più avanzati, segnalando un divario ancora significativo tra l’abilità umana e quella artificiale.
Il test comprendeva prove testuali e sfide multimodali, come diagrammi e immagini, concepite per mettere alla prova le capacità di ragionamento logico su più livelli. Un esempio emblematico, relativo all’ecologia, richiedeva conoscenze dettagliate sull’apparato muscoloscheletrico dei colibrì e delle loro singolari strutture ossee.
Summer Yue, direttrice della ricerca di Scale AI, ha sottolineato come l’obiettivo di “Humanity’s Last Exam” non sia soltanto valutare i limiti attuali dei sistemi di IA, ma fornire una guida per i futuri sviluppi. CAIS e Scale AI hanno inoltre annunciato l’intenzione di aprire il set di dati alla comunità scientifica, mantenendo tuttavia riservate alcune domande per preservare l’integrità di eventuali test successivi.
Questa iniziativa congiunta, che prevede premi in denaro per le domande più stimolanti, mira a promuovere la collaborazione globale nel campo della sicurezza e dell’avanzamento dell’intelligenza artificiale.