#newsETHOS-AIopenmind

Humanity’s Last Exam: quando l’innovazione incontra la conoscenza estrema

Gennaio 25, 2025

Scale AI e il Center for AI Safety (CAIS) hanno presentato i risultati di “Humanity’s Last Exam”, un nuovo punto di riferimento rivoluzionario per testare i confini dell’intelligenza artificiale rispetto all’esperienza umana. L’esame, sviluppato da oltre 1.000 collaboratori provenienti da 500 istituzioni in 50 paesi, ha raccolto più di 70.000 domande, successivamente ridotte a 3.000 quesiti definitivi. Le domande spaziavano dalla matematica alle discipline umanistiche, fino alle scienze naturali, con lo scopo di saggiare la capacità di ragionamento di diversi modelli di IA.

Dan Hendrycks, co-fondatore e direttore esecutivo di CAIS, ha spiegato che l’esame è nato per superare la saturazione dei benchmark esistenti. Molti modelli AI, infatti, ottengono punteggi quasi perfetti in test consolidati, ma restano impreparati di fronte a quesiti più complessi e fuori dagli schemi. Nei primi test, i sistemi di IA sottoposti al nuovo esame hanno risposto correttamente a meno del 10% dei quesiti più avanzati, segnalando un divario ancora significativo tra l’abilità umana e quella artificiale.

Il test comprendeva prove testuali e sfide multimodali, come diagrammi e immagini, concepite per mettere alla prova le capacità di ragionamento logico su più livelli. Un esempio emblematico, relativo all’ecologia, richiedeva conoscenze dettagliate sull’apparato muscoloscheletrico dei colibrì e delle loro singolari strutture ossee.

Summer Yue, direttrice della ricerca di Scale AI, ha sottolineato come l’obiettivo di “Humanity’s Last Exam” non sia soltanto valutare i limiti attuali dei sistemi di IA, ma fornire una guida per i futuri sviluppi. CAIS e Scale AI hanno inoltre annunciato l’intenzione di aprire il set di dati alla comunità scientifica, mantenendo tuttavia riservate alcune domande per preservare l’integrità di eventuali test successivi.

Questa iniziativa congiunta, che prevede premi in denaro per le domande più stimolanti, mira a promuovere la collaborazione globale nel campo della sicurezza e dell’avanzamento dell’intelligenza artificiale.

News ➤
Etica

Articolo precedente

La Scommessa da 30 Miliardi: Ambani e il Futuro dei Data Center a Jamnagar

Prossimo articolo

Claude e le fonti: una nuova era di affidabilità

NEWS AIopenmind su:

#newsChatAIopenmind (1)3D (8)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (41)Aeronautica (10)Africa (3)Agenti AI (5)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (10)AGID (1)Agricoltura (1)Amazon (43)Ambiente (4)AMD (2)Android (6)Animali (6)Animazione (5)Anthropic (28)Anziani (1)App (11)Apple (69)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (30)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (57)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (20)Banca (4)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (7)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (53)Chip (3)Cina (63)Cinema (11)Claude (20)Clima (4)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (5)Computer quantistici (35)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (2)Convegno (13)Copilot (6)Copyright (15)Criptovalute (1)Cybersecurity (4)Dalle-2 (3)Dark web (3)Data center (10)Dating (1)Deepfake (3)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (13)Email (1)ENEA (2)Esercito (2)Et (0)Etica (146)Europol (1)Eventi (7)Evento (8)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (6)Finanza (11)Finanziamenti Italia (4)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (24)Fotografia (113)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (20)Giappone (9)Giochi (10)Giornalismo (21)Giustizia (2)Google (356)Governo (7)Governo Italiano (3)Grafica (6)Guerra (13)Guida autonoma (7)Hong Kong (1)Hugging Face (3)IBM (8)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (4)Influencer (1)Informazione (10)Inghilterra (10)INPS (2)Intel (7)ISO (1)Istruzione (17)Jailbreaking (1)Kamala Harris (1)Lavoro (51)Libri (3)Linguistica computazionale (9)Linkedin (9)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (92)Medicina (35)Mercedes-Benz (1)Meta (108)Metaverso (17)Meteo (1)Microsoft (205)Midjourney (18)Mobilità sostenibile (2)Moda (6)Modelli AI (70)Motori di Ricerca (13)Mozilla (2)Museo (1)Musica (40)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (48)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)Odore (1)OMS (1)ONU (1)Open Source (4)OpenAI (302)Opera (13)Opera Browser (1)Oppo (3)Oracle (3)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (12)Pianeta (2)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (30)Programmazione (12)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (4)Ray-Ban (7)Realtà mista (4)Reddit (7)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (125)Ricerca scientifica (9)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (3)Robotica (48)Runway (13)Salute (6)Samsung (14)Sanità (18)Satelliti (2)Sceneggiatura (1)Semiconduttori (2)SEO (3)Shopping online (4)Sicurezza (27)Sicurezza informatica (74)SMS (1)Snapchat (8)Soccorso (1)Società (9)Software (4)Sport (3)Spotify (5)Stability (4)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (4)Startup (344)streaming live (1)Supercomputer (4)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Synthesia (1)Taiwan (2)Taxi (2)Telecomunicazioni (4)Telegram (3)Televisione (1)Tesla (9)TikTok (11)Torah (1)Traduttore AI (7)Truffa (2)Twitter (13)Ucraina (3)Udito (1)UE (12)UNESCO (2)UNICEF (1)Unione Europea (26)Università (5)Uomo (1)USA (55)Vaticano (4)Video (125)Videocomunicazione (4)Videogiochi (4)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (1)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (12)WhatsApp (11)Wikipedia (1)Wordpress (3)X (12)Xiaomi (1)Yahoo (3)Youtube (17)Zoom (6)

AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

CALL FOR INTELLIGENCE

#news ETHOS AIopenmind

#news NISQ AIopenmind

#news TECNĒ AIopenmind

I Think/eventi

Iscrizione NEWSLETTER

Link utili