Matematica e Modelli Linguistici: Svelati i Limiti del Ragionamento Logico

Un nuovo studio condotto da un team di ricercatori, tra cui Iman Mirzadeh, Keivan Alizadeh e Hooman Shahrokhi, ha rivelato i limiti dei modelli di linguaggio di grandi dimensioni (LLM) nel campo del ragionamento matematico. Sebbene i recenti sviluppi abbiano migliorato le capacità dei modelli nel rispondere a domande di livello scolastico, è emerso che questi miglioramenti non riflettono necessariamente un vero progresso nel ragionamento logico.

Utilizzando il benchmark GSM8K, gli autori hanno sottolineato come le prestazioni di questi modelli possano variare significativamente con semplici cambiamenti nelle domande, come la modifica dei valori numerici. Per comprendere meglio queste limitazioni, è stato introdotto GSM-Symbolic, un nuovo strumento di valutazione che genera domande attraverso template simbolici, permettendo un’analisi più dettagliata e affidabile delle capacità di ragionamento dei modelli.

Dallo studio emerge che le prestazioni dei modelli di punta calano drasticamente quando viene aumentato il numero di clausole in una domanda, evidenziando la fragilità nel ragionamento matematico. Anche l’aggiunta di clausole non direttamente legate alla risposta finale porta a un declino delle prestazioni fino al 65%. Questo comportamento suggerisce che gli LLM non operano attraverso un ragionamento logico genuino, ma piuttosto cercano di riprodurre i passi osservati durante l’addestramento.

Lo studio offre una prospettiva più chiara sulle limitazioni dei modelli di linguaggio, sollevando interrogativi sulla reale portata delle loro capacità di ragionamento simbolico e matematico.

NEWS AIopenmind su:

3D (6)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (39)Aeronautica (9)Africa (3)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (5)AGID (1)Amazon (34)Ambiente (2)AMD (1)Android (6)Animali (6)Animazione (4)Anthropic (8)Anziani (1)App (10)Apple (56)Archeologia (3)Architettura (4)Archivi storici (1)Armi (3)Arredamento interni (2)Arte (27)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (52)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (18)Banca (3)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (6)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (47)Chip (3)Cina (52)Cinema (8)Claude (17)Clima (3)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (3)Computer quantistici (31)Computer Vision (3)Comuni italiani (1)Comunicazione (9)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (5)Copyright (14)Criptovalute (1)Cybersecurity (1)Dalle-2 (3)Dark web (2)Data center (1)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (10)Email (1)ENEA (2)Esercito (2)Etica (127)Europol (1)Eventi (7)Evento (7)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (4)Finanza (9)Finanziamenti Italia (3)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (14)Fotografia (110)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (19)Giappone (9)Giochi (7)Giornalismo (12)Giustizia (1)Google (269)Governo (7)Governo Italiano (3)Grafica (5)Guerra (12)Guida autonoma (4)Hong Kong (1)Hugging Face (3)IBM (7)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (3)Influencer (1)Informazione (9)Inghilterra (7)INPS (2)Intel (7)ISO (1)Istruzione (16)Jailbreaking (1)Kamala Harris (1)Lavoro (44)Libri (3)Linguistica computazionale (7)Linkedin (8)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (60)Medicina (26)Mercedes-Benz (1)Meta (73)Metaverso (17)Microsoft (168)Midjourney (17)Mobilità sostenibile (1)Moda (5)Modelli AI (37)Motori di Ricerca (11)Mozilla (2)Musica (35)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (34)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (227)Opera (11)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (5)Pianeta (2)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (24)Programmazione (10)Prompt (5)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Jennifer Ann: Da Vittima a Persona Virtuale, la Controversia dell’AI

Nel 2006, Jennifer Ann Crecente, una giovane di 18 anni, fu uccisa dal fidanzato in un tragico episodio che ha segnato profondamente la vita...

AI Detector: La Chiave per Autenticità nel Marketing Digitale

https://www.youtube.com/watch?v=LCnSm_z4Rn0&t=1s Nel mondo digitale contemporaneo, dove la produzione di contenuti è in costante crescita, la necessità di strumenti in grado di identificare il materiale generato...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines