Un nuovo benchmark, denominato PARTNR (Planning And Reasoning Tasks in human-Robot collaboration), punta a rivoluzionare lo studio dell’interazione tra esseri umani e intelligenza artificiale in contesti domestici. Presentato il 31 ottobre 2024, il progetto si propone di analizzare le capacità di pianificazione e ragionamento degli agenti AI nelle attività quotidiane, mettendo alla prova i limiti della tecnologia attuale.
Il dataset PARTNR include 100.000 task in linguaggio naturale, simulando situazioni reali con vincoli spaziali, temporali e di capacità degli agenti. Il benchmark copre 60 ambienti domestici e 5.819 oggetti unici, utilizzando un processo semi-automatico basato su Large Language Models (LLM) e simulazione per garantire la validità dei test.
I risultati ottenuti evidenziano ancora notevoli criticità nei modelli AI all’avanguardia. Quando affiancati a un essere umano, gli LLM impiegano 1,5 volte più passaggi rispetto a una collaborazione tra due persone e 1,1 volte più passaggirispetto a un singolo individuo. Le difficoltà principali riguardano la gestione del coordinamento, il monitoraggio delle attività e la capacità di recupero dagli errori.
Un aspetto rilevante dello studio dimostra che LLM di dimensioni più contenute, ottimizzati con dati specifici di pianificazione, possono raggiungere prestazioni comparabili a modelli nove volte più grandi, con un’inferenza 8,6 volte più veloce. Questi risultati suggeriscono margini di miglioramento significativi per l’AI nella collaborazione uomo-robot, ponendo PARTNR come una risorsa chiave per la ricerca futura.