Il team NovaSky presso lo Sky Computing Lab dell’UC Berkeley ha presentato il loro nuovo modello di ragionamento, Sky-T1-32B-Preview. Questo modello completamente open source è stato addestrato con Qwen2.5-32B-Instruct utilizzando 17K dati, e le sue prestazioni sono alla pari con il modello o1-preview nei benchmark di ragionamento e codifica più diffusi.
L’aspetto sorprendente di Sky-T1-32B-Preview è che il costo di addestramento è inferiore ai 450 dollari, un risultato notevole considerando le capacità avanzate del modello. Il co-fondatore di NovaSky, Aymeric Vaudelin, ha spiegato che l’idea era di sviluppare un modello di ragionamento avanzato accessibile e altamente performante. “Abbiamo utilizzato Llama-Factory per l’addestramento e DeepSpeed Zero-3 Offload, completando la formazione in 19 ore,” ha affermato Vaudelin.
Il modello ha beneficiato di 17K risposte corrette verificate, insieme a dati scientifici aggiunti dal paper Still-2. Questa combinazione ha permesso al modello di eccellere in campi come la matematica e la codifica. La messa a punto supervisionata sui dati ha utilizzato una dimensione del batch pari a 96, ottimizzando l’efficienza del processo di formazione.
Sky-T1-32B-Preview rappresenta un passo avanti significativo per l’innovazione AI, permettendo a ricercatori e sviluppatori di accedere a un modello di ragionamento avanzato senza un costo proibitivo. NovaSky continua a spingere i confini della tecnologia AI, offrendo soluzioni innovative e accessibili.
Per maggiori dettagli, è possibile consultare il post sul blog di NovaSky, che fornisce una panoramica completa dei risultati ottenuti e delle future direzioni di ricerca.