Nell’ambito dell’intelligenza artificiale, un nuovo traguardo è stato raggiunto con l’introduzione di Grok-1.5V, il primo modello multimodale di prima generazione. Questo modello non solo eccelle nel trattare informazioni testuali, ma è anche in grado di elaborare una vasta gamma di informazioni visive, tra cui documenti, diagrammi, grafici, screenshot e fotografie.
Le capacità di Grok-1.5V si estendono su diversi ambiti, dalle ragioni multidisciplinari alla comprensione di documenti scientifici, diagrammi, grafici, screenshot e fotografie. Particolarmente significativo è il suo successo nel comprendere il mondo fisico, dimostrato dal suo superamento dei modelli concorrenti nel nuovo benchmark RealWorldQA, che valuta la comprensione spaziale del mondo reale.
Grok-1.5V è stato valutato in vari benchmark, dimostrando la sua competitività rispetto ai modelli multimodali di punta esistenti. Questo modello si distingue per le sue eccezionali performance anche nel codice di programmazione da diagrammi, come dimostrato nella conversione di un diagramma di un gioco di indovinelli in codice Python.
Inoltre, per avanzare ulteriormente nella comprensione del mondo fisico, è stato introdotto il benchmark RealWorldQA, progettato per valutare le capacità di comprensione spaziale dei modelli multimodali nel mondo reale.
Il dataset RealWorldQA, composto da oltre 700 immagini con domande e risposte facilmente verificabili per ciascuna immagine, è ora disponibile alla comunità. Questo dataset, che include immagini anonime acquisite da veicoli e altre immagini del mondo reale, rappresenta un importante passo avanti nell’avanzamento della comprensione del mondo fisico attraverso l’intelligenza artificiale.
________
Grok-1.5 Vision Preview