Il team di Qwen ha annunciato il lancio di Qwen2.5-VL, il nuovo modello di punta per la visione artificiale, segnando un significativo passo avanti rispetto al predecessore Qwen2-VL. Il modello è disponibile in tre versioni – 3B, 7B e 72B – e può essere testato su Qwen Chat, Hugging Face e ModelScope.
Le capacità di Qwen2.5-VL spaziano dal riconoscimento avanzato di immagini e oggetti alla comprensione testuale e all’analisi documentale. Il modello è in grado di identificare elementi visivi complessi, tra cui testi, tabelle e grafici, supportando output strutturati in formato JSON. Inoltre, introduce una capacità avanzata di comprensione video, permettendo di analizzare filmati della durata superiore a un’ora con una precisione senza precedenti.
Un aspetto innovativo è la funzione di localizzazione visiva, che consente di rilevare e tracciare oggetti con bounding box e coordinate dettagliate. Questo lo rende ideale per applicazioni che spaziano dal monitoraggio della sicurezza alla realtà aumentata. Sul fronte dell’analisi documentale, il modello è stato potenziato con un nuovo formato HTML QwenVL, in grado di estrarre e strutturare contenuti da documenti complessi.
Le prestazioni del modello sono competitive con i principali benchmark del settore. La versione di punta, Qwen2.5-VL-72B-Instruct, offre risultati superiori nella comprensione documentale e nel ragionamento visivo rispetto ad altri modelli di dimensioni simili. Anche le varianti più leggere, come il modello 7B, si distinguono superando GPT-4o-mini in numerosi test.
Grazie a queste innovazioni, Qwen2.5-VL rappresenta un nuovo standard per l’intelligenza artificiale multimodale, con applicazioni che spaziano dalla ricerca accademica all’automazione aziendale, fino all’uso in dispositivi edge AI.