In un’epoca in cui l’intelligenza artificiale è sempre più centrale nelle nostre vite, l’attenzione si sta spostando verso modelli linguistici più piccoli e ottimizzati che possono operare localmente sui dispositivi degli utenti. SmolLM, una famiglia di modelli linguistici all’avanguardia, sta emergendo come un pioniere in questo campo, offrendo soluzioni compatte e potenti con un numero di parametri che va da 135 milioni a 1,7 miliardi.
L’innovazione di SmolLM risiede non solo nella sua capacità di comprimere modelli di grandi dimensioni, ma anche nella sua formazione su un dataset di alta qualità, SmolLM-Corpus. Questo corpus include Cosmopedia v2, una raccolta di libri di testo sintetici e storie, Python-Edu, campioni educativi di Python, e FineWeb-Edu, campioni web educativi. Questi componenti consentono ai modelli SmolLM di superare altre soluzioni della stessa categoria dimensionale su vari benchmark, testando il ragionamento e la conoscenza del mondo.
Il processo di curazione dei dati per SmolLM-Corpus è meticoloso. Per esempio, Cosmopedia v2 è stata migliorata usando modelli più capaci e ottimizzando i prompt. Inoltre, è stato adottato un approccio più strutturato per selezionare gli argomenti, utilizzando la classificazione BISAC, che ha portato a una lista di 34.000 argomenti e 34 milioni di pagine web rilevanti.
Questa combinazione di innovazione e attenzione ai dettagli rende SmolLM una scelta eccellente per applicazioni che richiedono efficienza, privacy e prestazioni elevate. Con il rilascio del SmolLM-Corpus, SmolLM sta non solo alzando il livello della tecnologia dei modelli linguistici, ma sta anche promuovendo un ecosistema di ricerca aperta e trasparente.