Humanity’s Last Exam: quando l’innovazione incontra la conoscenza estrema

Scale AI e il Center for AI Safety (CAIS) hanno presentato i risultati di “Humanity’s Last Exam”, un nuovo punto di riferimento rivoluzionario per testare i confini dell’intelligenza artificiale rispetto all’esperienza umana. L’esame, sviluppato da oltre 1.000 collaboratori provenienti da 500 istituzioni in 50 paesi, ha raccolto più di 70.000 domande, successivamente ridotte a 3.000 quesiti definitivi. Le domande spaziavano dalla matematica alle discipline umanistiche, fino alle scienze naturali, con lo scopo di saggiare la capacità di ragionamento di diversi modelli di IA.

Dan Hendrycks, co-fondatore e direttore esecutivo di CAIS, ha spiegato che l’esame è nato per superare la saturazione dei benchmark esistenti. Molti modelli AI, infatti, ottengono punteggi quasi perfetti in test consolidati, ma restano impreparati di fronte a quesiti più complessi e fuori dagli schemi. Nei primi test, i sistemi di IA sottoposti al nuovo esame hanno risposto correttamente a meno del 10% dei quesiti più avanzati, segnalando un divario ancora significativo tra l’abilità umana e quella artificiale.

Il test comprendeva prove testuali e sfide multimodali, come diagrammi e immagini, concepite per mettere alla prova le capacità di ragionamento logico su più livelli. Un esempio emblematico, relativo all’ecologia, richiedeva conoscenze dettagliate sull’apparato muscoloscheletrico dei colibrì e delle loro singolari strutture ossee.

Summer Yue, direttrice della ricerca di Scale AI, ha sottolineato come l’obiettivo di “Humanity’s Last Exam” non sia soltanto valutare i limiti attuali dei sistemi di IA, ma fornire una guida per i futuri sviluppi. CAIS e Scale AI hanno inoltre annunciato l’intenzione di aprire il set di dati alla comunità scientifica, mantenendo tuttavia riservate alcune domande per preservare l’integrità di eventuali test successivi.

Questa iniziativa congiunta, che prevede premi in denaro per le domande più stimolanti, mira a promuovere la collaborazione globale nel campo della sicurezza e dell’avanzamento dell’intelligenza artificiale.

NEWS AIopenmind su:

#newsChatAIopenmind (1)3D (8)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (41)Aeronautica (10)Africa (3)Agenti AI (5)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (10)AGID (1)Agricoltura (1)Amazon (43)Ambiente (4)AMD (2)Android (6)Animali (6)Animazione (5)Anthropic (28)Anziani (1)App (11)Apple (69)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (30)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (57)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (20)Banca (4)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (7)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (53)Chip (3)Cina (63)Cinema (11)Claude (20)Clima (4)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (5)Computer quantistici (35)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (2)Convegno (13)Copilot (6)Copyright (15)Criptovalute (1)Cybersecurity (4)Dalle-2 (3)Dark web (3)Data center (10)Dating (1)Deepfake (3)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (13)Email (1)ENEA (2)Esercito (2)Et (0)Etica (146)Europol (1)Eventi (7)Evento (8)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (6)Finanza (11)Finanziamenti Italia (4)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (24)Fotografia (113)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (20)Giappone (9)Giochi (10)Giornalismo (21)Giustizia (2)Google (356)Governo (7)Governo Italiano (3)Grafica (6)Guerra (13)Guida autonoma (7)Hong Kong (1)Hugging Face (3)IBM (8)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (4)Influencer (1)Informazione (10)Inghilterra (10)INPS (2)Intel (7)ISO (1)Istruzione (17)Jailbreaking (1)Kamala Harris (1)Lavoro (51)Libri (3)Linguistica computazionale (9)Linkedin (9)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (92)Medicina (35)Mercedes-Benz (1)Meta (108)Metaverso (17)Meteo (1)Microsoft (205)Midjourney (18)Mobilità sostenibile (2)Moda (6)Modelli AI (70)Motori di Ricerca (13)Mozilla (2)Museo (1)Musica (40)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (48)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)Odore (1)OMS (1)ONU (1)Open Source (4)OpenAI (302)Opera (13)Opera Browser (1)Oppo (3)Oracle (3)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (12)Pianeta (2)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (30)Programmazione (12)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (4)Ray-Ban (7)Realtà mista (4)Reddit (7)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (125)Ricerca scientifica (9)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (3)Robotica (48)Runway (13)Salute (6)Samsung (14)Sanità (18)Satelliti (2)Sceneggiatura (1)Semiconduttori (2)SEO (3)Shopping online (4)Sicurezza (27)Sicurezza informatica (74)SMS (1)Snapchat (8)Soccorso (1)Società (9)Software (4)Sport (3)Spotify (5)Stability (4)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (4)Startup (344)streaming live (1)Supercomputer (4)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Synthesia (1)Taiwan (2)Taxi (2)Telecomunicazioni (4)Telegram (3)Televisione (1)Tesla (9)TikTok (11)Torah (1)Traduttore AI (7)Truffa (2)Twitter (13)Ucraina (3)Udito (1)UE (12)UNESCO (2)UNICEF (1)Unione Europea (26)Università (5)Uomo (1)USA (55)Vaticano (4)Video (125)Videocomunicazione (4)Videogiochi (4)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (1)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (12)WhatsApp (11)Wikipedia (1)Wordpress (3)X (12)Xiaomi (1)Yahoo (3)Youtube (17)Zoom (6)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

#newsETHOS-AIopenmind – 2025 gennaio 25

L'UE verso un controllo sugli investimenti outboundLa Commissione Europea sta avanzando con un piano per regolamentare gli investimenti outbound, introducendo nuove misure di controllo...

#newsNISQ-AIopenmind – 2025 gennaio 23

Trump lancia il progetto 'Stargate': le azioni del calcolo quantistico decollano Scienziati di Harvard intrappolano molecole: una svolta nel calcolo quantistico Xanadu presenta Aurora: il futuro...

Efficienza e innovazione: il modello R1 di DeepSeek sfida i giganti dell’IA

L’azienda cinese DeepSeek ha scatenato un acceso dibattito nel settore tecnologico dopo il lancio del suo modello di intelligenza artificiale open source, R1. Presentato...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines