I modelli multimodali di grandi dimensioni (MLLM) rappresentano l’ultima frontiera nell’intelligenza artificiale, combinando informazioni visive e verbali per ampliare le capacità di ragionamento delle macchine. Tuttavia, uno studio recente condotto da un gruppo di ricercatori, tra cui Kian Ahrabian e Zhivar Sourati, ha evidenziato i limiti di queste tecnologie in situazioni di ragionamento astratto non verbale.
Lo studio si è concentrato sull’uso delle matrici progressive di Raven, un test visivo di intelligenza che misura le abilità di ragionamento astratto senza l’uso di linguaggio. I ricercatori hanno testato sia modelli open-source che closed-source, scoprendo che affrontare problemi visivi di questo tipo è ancora una sfida significativa per i MLLM.
I risultati sono stati chiari: i modelli closed-source hanno ottenuto risultati notevolmente superiori rispetto alle versioni open-source, mettendo in luce l’enorme divario tecnologico esistente. Nonostante ciò, entrambi i modelli hanno mostrato criticità nell’interpretazione delle informazioni visive e testuali, rimanendo vincolati da basse soglie di prestazione.
Per affrontare queste carenze, il team ha sperimentato tecniche come il “Chain-of-Thought prompting”, che ha portato a miglioramenti significativi, fino al 100% in alcuni casi. Questo approccio ha permesso di stimolare una sequenza logica nei modelli, migliorando la loro capacità di risolvere problemi complessi.
Lo studio non solo offre spunti su come migliorare i MLLM, ma sottolinea anche la strada ancora lunga per rendere queste tecnologie realmente capaci di ragionare come gli esseri umani.