#newsTECNĒaiopenmind

Quando Parole e Immagini Non Bastano: Limiti e Prospettive dei MLLM

Ottobre 16, 2024

I modelli multimodali di grandi dimensioni (MLLM) rappresentano l’ultima frontiera nell’intelligenza artificiale, combinando informazioni visive e verbali per ampliare le capacità di ragionamento delle macchine. Tuttavia, uno studio recente condotto da un gruppo di ricercatori, tra cui Kian Ahrabian e Zhivar Sourati, ha evidenziato i limiti di queste tecnologie in situazioni di ragionamento astratto non verbale.

Lo studio si è concentrato sull’uso delle matrici progressive di Raven, un test visivo di intelligenza che misura le abilità di ragionamento astratto senza l’uso di linguaggio. I ricercatori hanno testato sia modelli open-source che closed-source, scoprendo che affrontare problemi visivi di questo tipo è ancora una sfida significativa per i MLLM.

I risultati sono stati chiari: i modelli closed-source hanno ottenuto risultati notevolmente superiori rispetto alle versioni open-source, mettendo in luce l’enorme divario tecnologico esistente. Nonostante ciò, entrambi i modelli hanno mostrato criticità nell’interpretazione delle informazioni visive e testuali, rimanendo vincolati da basse soglie di prestazione.

Per affrontare queste carenze, il team ha sperimentato tecniche come il “Chain-of-Thought prompting”, che ha portato a miglioramenti significativi, fino al 100% in alcuni casi. Questo approccio ha permesso di stimolare una sequenza logica nei modelli, migliorando la loro capacità di risolvere problemi complessi.

Lo studio non solo offre spunti su come migliorare i MLLM, ma sottolinea anche la strada ancora lunga per rendere queste tecnologie realmente capaci di ragionare come gli esseri umani.

News ➤
Modelli AI

Articolo precedente

SearchGPT: la nuova frontiera della ricerca online con AI

Prossimo articolo

Dal Machine Learning all’AGI: Esplorando l’Universo dell’Intelligenza Artificiale

NEWS AIopenmind su:

3D (6)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (37)Aeronautica (9)Africa (3)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (5)AGID (1)Amazon (33)Ambiente (2)AMD (1)Android (6)Animali (6)Animazione (4)Anthropic (8)Anziani (1)App (10)Apple (56)Archeologia (3)Architettura (4)Archivi storici (1)Armi (3)Arredamento interni (2)Arte (27)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (52)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (18)Banca (3)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (6)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (44)Chip (3)Cina (52)Cinema (8)Claude (17)Clima (3)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (3)Computer quantistici (31)Computer Vision (3)Comuni italiani (1)Comunicazione (9)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (5)Copyright (12)Criptovalute (1)Cybersecurity (1)Dalle-2 (3)Dark web (2)Data center (1)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (9)Email (1)ENEA (2)Esercito (2)Etica (127)Europol (1)Eventi (7)Evento (7)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (3)Finanza (9)Finanziamenti Italia (3)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (13)Fotografia (110)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (19)Giappone (9)Giochi (7)Giornalismo (12)Giustizia (1)Google (266)Governo (7)Governo Italiano (3)Grafica (5)Guerra (12)Guida autonoma (4)Hong Kong (1)Hugging Face (3)IBM (7)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (3)Influencer (1)Informazione (9)Inghilterra (7)INPS (2)Intel (7)ISO (1)Istruzione (16)Jailbreaking (1)Kamala Harris (1)Lavoro (44)Libri (3)Linguistica computazionale (7)Linkedin (8)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (55)Medicina (26)Mercedes-Benz (1)Meta (72)Metaverso (17)Microsoft (167)Midjourney (17)Mobilità sostenibile (1)Moda (5)Modelli AI (36)Motori di Ricerca (11)Mozilla (2)Musica (34)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (34)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (224)Opera (10)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (5)Pianeta (2)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (23)Programmazione (10)Prompt (5)

AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

CALL FOR INTELLIGENCE

#news ETHOS AIopenmind

#news NISQ AIopenmind

#news TECNĒ AIopenmind

I Think/eventi

Iscrizione NEWSLETTER

Link utili