OpenAI ha recentemente annunciato o3, il suo nuovo modello di intelligenza artificiale che ha ottenuto risultati eccezionali nei test di benchmark, raggiungendo un punteggio dell’88% nell’ARC-AGI, un test progettato per valutare i progressi verso l’Intelligenza Artificiale Generale (AGI). Questo risultato supera di gran lunga i risultati ottenuti da altri modelli precedenti, che non avevano mai superato il 32%.
Il segreto di questo balzo in avanti sembra risiedere in una tecnica chiamata “test-time scaling”. Questa tecnica, in termini semplici, consiste nell’utilizzare una maggiore potenza di calcolo durante la fase di inferenza, ovvero quando l’AI elabora le risposte alle domande degli utenti. Questo si traduce nell’utilizzo di più chip, chip più potenti o tempi di elaborazione più lunghi, che possono arrivare fino a 10-15 minuti per singola risposta.
Nonostante i risultati promettenti, il costo computazionale di o3 è un problema significativo. Per raggiungere l’88% nell’ARC-AGI, OpenAI ha speso oltre 1.000 dollari di risorse di calcolo per ogni singola domanda. Questo rappresenta un aumento esponenziale rispetto al modello precedente o1, che ne utilizzava circa 5 dollari, e alla versione mini, che costava solo pochi centesimi.
Questo solleva interrogativi sull’effettiva applicabilità di o3 in contesti reali, soprattutto per attività quotidiane. Il modello sembra più adatto a quesiti complessi e ad alto impatto, dove il costo elevato potrebbe essere giustificato dai risultati. Inoltre, o3 presenta ancora limitazioni, come la difficoltà nel risolvere compiti semplici e il problema delle “allucinazioni”, ovvero la tendenza a fornire risposte inventate.