Robot domestici: il test PARTNR svela le debolezze dell’AI nel lavoro di squadra

Un nuovo benchmark, denominato PARTNR (Planning And Reasoning Tasks in human-Robot collaboration), punta a rivoluzionare lo studio dell’interazione tra esseri umani e intelligenza artificiale in contesti domestici. Presentato il 31 ottobre 2024, il progetto si propone di analizzare le capacità di pianificazione e ragionamento degli agenti AI nelle attività quotidiane, mettendo alla prova i limiti della tecnologia attuale.

Il dataset PARTNR include 100.000 task in linguaggio naturale, simulando situazioni reali con vincoli spaziali, temporali e di capacità degli agenti. Il benchmark copre 60 ambienti domestici e 5.819 oggetti unici, utilizzando un processo semi-automatico basato su Large Language Models (LLM) e simulazione per garantire la validità dei test.

I risultati ottenuti evidenziano ancora notevoli criticità nei modelli AI all’avanguardia. Quando affiancati a un essere umano, gli LLM impiegano 1,5 volte più passaggi rispetto a una collaborazione tra due persone e 1,1 volte più passaggirispetto a un singolo individuo. Le difficoltà principali riguardano la gestione del coordinamento, il monitoraggio delle attività e la capacità di recupero dagli errori.

Un aspetto rilevante dello studio dimostra che LLM di dimensioni più contenute, ottimizzati con dati specifici di pianificazione, possono raggiungere prestazioni comparabili a modelli nove volte più grandi, con un’inferenza 8,6 volte più veloce. Questi risultati suggeriscono margini di miglioramento significativi per l’AI nella collaborazione uomo-robot, ponendo PARTNR come una risorsa chiave per la ricerca futura.

NEWS AIopenmind su:

#newsChatAIopenmind (1)3D (9)6G (5)Accademia di Comunicazione (4)Acer (1)Adobe (44)Aeronautica (11)Africa (3)Agenti AI (29)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (13)AGID (1)Agricoltura (2)Amazon (45)Ambiente (4)AMD (2)Android (7)Animali (6)Animazione (5)Anthropic (32)Anziani (1)App (12)Apple (78)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (30)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (59)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (3)Aziende (24)Banca (5)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (7)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (54)Chip (3)Cina (82)Cinema (11)Claude (20)Clima (5)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (6)Computer quantistici (41)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (2)Convegno (15)Copilot (6)Copyright (21)Criptovalute (2)Cybersecurity (4)Dalle-2 (3)Dark web (3)Data center (13)Dating (1)Deepfake (3)Design automobilistico (3)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (13)Editoriale AIopenmind (1)Email (1)ENEA (2)Esercito (2)Et (0)Etica (181)Europol (3)Eventi (7)Evento (8)Facebook (4)FakeNews (20)Falegnameria (1)Fauna selvatica (1)Film (6)Finanza (15)Finanziamenti Italia (4)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (43)Fotografia (117)Francia (6)Free lance (1)G7 (1)Gaming (3)Garante privacy (21)Giappone (13)Giochi (10)Giornalismo (22)Giustizia (2)Google (385)Governo (7)Governo Italiano (3)Grafica (6)Grok (4)Guerra (16)Guida autonoma (8)Hong Kong (4)Hugging Face (5)IBM (8)Illustrazioni (1)iMessage (1)Immobiliare (1)India (5)Indossabili (4)Influencer (1)Informazione (10)Inghilterra (12)INPS (2)Intel (9)ISO (1)Istruzione (17)Jailbreaking (1)Kamala Harris (1)Lavoro (71)Libri (3)Linguistica computazionale (12)Linkedin (9)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (115)Medicina (36)Mercedes-Benz (1)Meta (120)Metaverso (17)Meteo (1)Microsoft (216)Midjourney (18)Mistral (11)Mobilità sostenibile (2)Moda (6)Modelli AI (111)Motori di Ricerca (13)Mozilla (2)Museo (1)Musica (41)NASA (1)Nato (2)Natura (3)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (54)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (1)Open Source (7)OpenAI (326)Opera (14)Opera Browser (1)Oppo (3)Oracle (3)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (15)Pianeta (2)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (31)Programmazione (14)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (4)Reddit (7)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (132)Ricerca scientifica (14)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (3)Robotica (63)Runway (13)Salute (13)Samsung (14)Sanità (19)Satelliti (2)Sceneggiatura (1)Semiconduttori (2)SEO (3)Shopping online (4)Sicurezza (28)Sicurezza informatica (83)SMS (1)Snapchat (10)Soccorso (1)Società (13)Software (4)Sport (3)Spotify (7)Stability (4)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (4)Startup (430)streaming live (1)Supercomputer (5)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Synthesia (1)Taiwan (5)Taxi (2)Telecomunicazioni (5)Telegram (3)Televisione (1)Tesla (10)TikTok (11)Torah (1)Traduttore AI (7)Trasporti (4)Truffa (2)Twitter (13)Ucraina (3)Udito (1)UE (13)UNESCO (3)UNICEF (1)Unione Europea (28)Università (5)Uomo (1)USA (67)Vaticano (5)Video (138)Videocomunicazione (4)Videogiochi (4)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (1)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (13)WhatsApp (11)Wikipedia (1)Wordpress (3)X (13)xAI (4)Xiaomi (1)Yahoo (3)Youtube (19)Zoom (6)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

#weeklynewsNISQ-AIopenmind 2025 Febbraio 23

Microsoft accelera l’era del quantum computingMicrosoft ha presentato un nuovo chip che, secondo l'azienda, potrebbe rendere i computer quantistici una realtà in "anni, non...

Edge Add-ons si aggiorna: navigazione più fluida e ricerca avanzata

Microsoft ha annunciato il lancio della nuova versione del sito Edge Add-ons, progettata per offrire un’esperienza utente più intuitiva e un accesso più semplice a...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines