Quando Parole e Immagini Non Bastano: Limiti e Prospettive dei MLLM

I modelli multimodali di grandi dimensioni (MLLM) rappresentano l’ultima frontiera nell’intelligenza artificiale, combinando informazioni visive e verbali per ampliare le capacità di ragionamento delle macchine. Tuttavia, uno studio recente condotto da un gruppo di ricercatori, tra cui Kian Ahrabian e Zhivar Sourati, ha evidenziato i limiti di queste tecnologie in situazioni di ragionamento astratto non verbale.

Lo studio si è concentrato sull’uso delle matrici progressive di Raven, un test visivo di intelligenza che misura le abilità di ragionamento astratto senza l’uso di linguaggio. I ricercatori hanno testato sia modelli open-source che closed-source, scoprendo che affrontare problemi visivi di questo tipo è ancora una sfida significativa per i MLLM.

I risultati sono stati chiari: i modelli closed-source hanno ottenuto risultati notevolmente superiori rispetto alle versioni open-source, mettendo in luce l’enorme divario tecnologico esistente. Nonostante ciò, entrambi i modelli hanno mostrato criticità nell’interpretazione delle informazioni visive e testuali, rimanendo vincolati da basse soglie di prestazione.

Per affrontare queste carenze, il team ha sperimentato tecniche come il “Chain-of-Thought prompting”, che ha portato a miglioramenti significativi, fino al 100% in alcuni casi. Questo approccio ha permesso di stimolare una sequenza logica nei modelli, migliorando la loro capacità di risolvere problemi complessi.

Lo studio non solo offre spunti su come migliorare i MLLM, ma sottolinea anche la strada ancora lunga per rendere queste tecnologie realmente capaci di ragionare come gli esseri umani.

NEWS AIopenmind su:

3D (6)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (37)Aeronautica (9)Africa (3)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (5)AGID (1)Amazon (33)Ambiente (2)AMD (1)Android (6)Animali (6)Animazione (4)Anthropic (8)Anziani (1)App (10)Apple (56)Archeologia (3)Architettura (4)Archivi storici (1)Armi (3)Arredamento interni (2)Arte (27)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (52)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (18)Banca (3)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (6)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (44)Chip (3)Cina (52)Cinema (8)Claude (17)Clima (3)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (3)Computer quantistici (31)Computer Vision (3)Comuni italiani (1)Comunicazione (9)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (5)Copyright (12)Criptovalute (1)Cybersecurity (1)Dalle-2 (3)Dark web (2)Data center (1)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (9)Email (1)ENEA (2)Esercito (2)Etica (127)Europol (1)Eventi (7)Evento (7)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (3)Finanza (9)Finanziamenti Italia (3)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (13)Fotografia (110)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (19)Giappone (9)Giochi (7)Giornalismo (12)Giustizia (1)Google (266)Governo (7)Governo Italiano (3)Grafica (5)Guerra (12)Guida autonoma (4)Hong Kong (1)Hugging Face (3)IBM (7)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (3)Influencer (1)Informazione (9)Inghilterra (7)INPS (2)Intel (7)ISO (1)Istruzione (16)Jailbreaking (1)Kamala Harris (1)Lavoro (44)Libri (3)Linguistica computazionale (7)Linkedin (8)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (55)Medicina (26)Mercedes-Benz (1)Meta (72)Metaverso (17)Microsoft (167)Midjourney (17)Mobilità sostenibile (1)Moda (5)Modelli AI (36)Motori di Ricerca (11)Mozilla (2)Musica (34)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (34)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (224)Opera (10)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (5)Pianeta (2)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (23)Programmazione (10)Prompt (5)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Jennifer Ann: Da Vittima a Persona Virtuale, la Controversia dell’AI

Nel 2006, Jennifer Ann Crecente, una giovane di 18 anni, fu uccisa dal fidanzato in un tragico episodio che ha segnato profondamente la vita...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines