NVLM 1.0, una nuova famiglia di modelli di intelligenza artificiale multimodale di livello avanzato che ha già raggiunto risultati all’avanguardia nelle attività che combinano visione e linguaggio. NVLM 1.0 si distingue per la sua capacità di migliorare anche i compiti esclusivamente testuali, superando persino il suo modello di base.
Il progetto NVLM 1.0 è stato sviluppato da un team di ricercatori guidato da Wei Ping e comprende esperti come Wenliang Dai, Nayeon Lee, e altri. La loro creazione rivaleggia con modelli di alto livello come GPT-4o e Llama 3-V. Una delle caratteristiche più impressionanti è che il modello, nonostante sia stato addestrato con compiti multimodali, non ha mostrato alcuna degradazione nelle sue prestazioni su attività esclusivamente testuali. Anzi, in alcuni ambiti come la matematica e il coding, il modello ha migliorato le sue capacità rispetto alla versione originale, con un aumento dell’accuratezza media del 4,3%.
NVLM 1.0 è particolarmente efficace nel riconoscimento ottico dei caratteri (OCR), rispondendo a domande visuali complesse e risolvendo problemi matematici attraverso una ragionata analisi dei dati visivi. I ricercatori hanno proposto anche un’innovativa architettura di modellazione, combinando i vantaggi di diversi approcci esistenti per migliorare sia l’efficienza di addestramento che le capacità di ragionamento multimodale.
Il team prevede di rilasciare il codice di addestramento nel framework Megatron-Core, insieme ai pesi del modello, per la comunità scientifica. Questo apre nuove possibilità di sviluppo per una vasta gamma di applicazioni in AI, sia in ambito accademico che industriale.