Rhymes AI ha lanciato Aria, il primo modello open-source multimodale di tipo Mixture-of-Experts (MoE) in grado di comprendere testi, immagini, video e codice senza la necessità di configurazioni separate. Questo modello rappresenta un notevole progresso nell’intelligenza artificiale, garantendo prestazioni di alto livello su una vasta gamma di compiti multimodali e linguistici.
Aria è stato pre-addestrato su una varietà di dati multimodali e linguistici, combinando efficienza e velocità grazie a una struttura MoE con 3,9 miliardi di parametri attivati per token. La capacità di gestire contesti di input estesi, come video di 256 frame o documenti complessi, la rende particolarmente adatta per applicazioni reali che richiedono un’elaborazione rapida e accurata. Rhymes AI ha reso il modello accessibile tramite licenza Apache 2.0, con repository di codice e report tecnico per agevolare lo sviluppo collaborativo.
Nella valutazione dei benchmark, Aria si distingue come il miglior modello multimodale aperto, superando Pixtral-12B e Llama3.2-11B in compiti di comprensione multimodale e linguistica. Compete anche con modelli proprietari come GPT-4o e Gemini-1.5, offrendo un’efficienza senza pari nel rapporto tra prestazioni e numero di parametri attivati.
Il processo di addestramento di Aria segue un percorso in quattro fasi, consentendo una progressione graduale delle capacità multimodali mantenendo la comprensione linguistica. Grazie a queste caratteristiche, Aria rappresenta una scelta preferenziale per analisi complesse di dati visivi e testuali, sia per utenti tecnici che per ricercatori di intelligenza artificiale.