Mistral AI ha annunciato oggi il lancio di Pixtral Large, un modello multimodale all’avanguardia con 124 miliardi di parametri. Basato su Mistral Large 2, Pixtral Large combina capacità di comprensione testuale e visiva, garantendo prestazioni di eccellenza in diversi contesti, dai documenti alle immagini naturali, fino ai grafici complessi.
Il modello si distingue per una finestra di contesto di 128K, che consente di elaborare almeno 30 immagini ad alta risoluzione contemporaneamente, e un encoder visivo da 1 miliardo di parametri che completa il decoder testuale avanzato. Pixtral Large è disponibile sotto licenza Mistral Research per uso accademico e con licenza commerciale per applicazioni produttive.
Nei test benchmark, il modello ha superato i concorrenti su piattaforme chiave come MathVista, ChartQA e DocVQA, dimostrando una capacità superiore di ragionamento su dati visivi e matematici. In particolare, ha ottenuto il 69,4% su MathVista, superando GPT-4o e Gemini-1.5 Pro. Inoltre, Pixtral Large ha eccelso su MM-MT-Bench, una piattaforma di valutazione progettata per rispecchiare i casi d’uso reali dei modelli multimodali.
Parallelamente, Mistral AI ha rilasciato una versione aggiornata del modello testuale Mistral Large, la 24.11, ottimizzata per contesti lunghi, automazione e flussi di lavoro orientati alla conoscenza. Entrambi i modelli sono già disponibili per il download e l’integrazione su API.
Con Pixtral Large, Mistral AI conferma il suo ruolo di leader nel settore dell’intelligenza artificiale, portando innovazioni significative sia nella comprensione visiva sia nelle applicazioni testuali avanzate.