Gemini, Robot e Mobility VLA: La Nuova Frontiera della Navigazione Multimodale

Nel mondo della ricerca sulla navigazione, un obiettivo ambizioso è quello di sviluppare un agente intelligente in grado di comprendere istruzioni multimodali, inclusi il linguaggio naturale e le immagini, per eseguire compiti di navigazione utili. Un nuovo studio propone una soluzione innovativa per raggiungere questo obiettivo: Mobility VLA. Questa tecnologia si concentra su una categoria di compiti di navigazione chiamata Multimodal Instruction Navigation con Tour Dimostrativi (MINT), dove l’ambiente viene presentato attraverso un video dimostrativo registrato in precedenza.

I recenti progressi nei modelli Vision-Language (VLMs) hanno mostrato una strada promettente per raggiungere questo traguardo, dimostrando capacità di percezione e ragionamento su input multimodali. Tuttavia, i VLMs sono tipicamente addestrati per prevedere output testuali, rendendo la loro applicazione nella navigazione una questione di ricerca aperta.

Mobility VLA introduce una politica di navigazione gerarchica chiamata Vision-Language-Action (VLA), che combina la comprensione dell’ambiente e il ragionamento del contesto lungo dei VLMs con una robusta politica di navigazione di basso livello basata su grafi topologici. La politica di alto livello utilizza un VLM a contesto lungo che prende il video del tour dimostrativo e le istruzioni multimodali dell’utente come input per trovare il fotogramma obiettivo nel video del tour. Successivamente, una politica di basso livello utilizza il fotogramma obiettivo e un grafo topologico costruito offline per generare azioni robotiche a ogni intervallo di tempo.

Mobility VLA è stato valutato in un ambiente reale di 836 metri quadrati, dimostrando un alto tasso di successo end-to-end su istruzioni multimodali precedentemente irrisolte, come “Dove dovrei restituire questo?” tenendo in mano un contenitore di plastica. Questa innovazione segna un passo significativo verso il futuro della navigazione intelligente.

NEWS AIopenmind su:

3D (13)6G (15)Accademia di Comunicazione (4)Acer (1)Adobe (46)Aeronautica (11)Africa (4)Agenti AI (79)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (26)AGID (1)Agricoltura (3)Amazon (63)Ambiente (5)AMD (3)America Latina (1)Android (7)Animali (7)Animazione (6)Anthropic (52)Anziani (1)App (13)Apple (88)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (33)Assistente vocale (8)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (69)Autoapprendimento (1)Avatar (8)Aviazione (1)Avvocati (3)Aziende (27)Banca (5)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)California (1)Canva (7)Cattolicesimo (3)Certificazioni (1)Chataudio (1)Chatbot IA (55)Chip (4)Cina (119)Cinema (11)Claude (22)Clima (6)CNR (1)Coca-Cola (2)Commercio (2)Commissione Europea (3)Compagnie aeree (1)Computer (8)Computer quantistici (51)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (2)Contabilità (2)Convegno (16)Copilot (7)Copyright (31)Corea del Nord (1)Criptovalute (2)Cybersecurity (25)Dalle-2 (3)Dark web (3)Data center (23)Dating (1)Deepfake (4)DeepSeek (29)Design automobilistico (3)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (16)ENEA (2)Esercito (2)Etica (270)Europol (3)Eventi (9)Evento (9)Facebook (4)FakeNews (22)Falegnameria (1)Fauna selvatica (1)Film (7)Finanza (34)Finanziamenti Italia (4)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (55)Fotografia (123)Francia (6)Free lance (1)G7 (1)Gaming (3)Garante privacy (21)Giappone (20)Giochi (10)Giornalismo (24)Giustizia (3)Google (443)Governo (8)Governo Italiano (3)Grafica (6)Grok (9)Guerra (18)Guida autonoma (8)Hong Kong (12)Hugging Face (6)IBM (9)Illustrazioni (1)iMessage (1)Immobiliare (1)India (8)Indossabili (4)Influencer (1)Informazione (10)Inghilterra (15)INPS (2)Intel (9)ISO (1)Israele (1)Istruzione (17)Jailbreaking (1)Kamala Harris (1)Lavoro (95)Libri (3)Linguistica computazionale (12)Linkedin (9)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (146)Medicina (36)Mercedes-Benz (1)Meta (136)Metaverso (17)Meteo (1)Microsoft (243)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (6)Modelli AI (150)Motori di Ricerca (14)Mozilla (3)Museo (1)Musica (45)NASA (2)Nato (2)Natura (7)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Norvegia (1)Nvidia (83)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (1)Open Source (17)OpenAI (373)Opera (16)Opera Browser (1)Oppo (3)Oracle (3)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (19)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (16)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (4)Reddit (7)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (146)Ricerca scientifica (16)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (86)Runway (16)Salute (34)Samsung (15)Sanità (20)Satelliti (5)Sceneggiatura (1)Semiconduttori (6)SEO (3)Shopping online (4)Sicurezza (31)Sicurezza informatica (90)SMS (1)Snapchat (11)Soccorso (1)Società (15)SoftBank (1)Software (5)Sony (2)Sora (1)Sport (4)Spotify (8)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (4)Startup (540)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Synthesia (1)Taiwan (20)Taxi (2)Telecomunicazioni (7)Telegram (4)Televisione (1)Tesla (10)TikTok (12)Tinder (1)Torah (1)Traduttore AI (7)Trasporti (13)Truffa (2)Twitter (13)Ucraina (3)Udito (1)UE (13)UNESCO (3)UNICEF (1)Unione Europea (35)Università (5)Uomo (1)USA (86)Vaticano (5)Video (144)Videocomunicazione (4)Videogiochi (12)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (1)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (12)Wikipedia (2)Wordpress (3)X (13)xAI (10)Xiaomi (1)Yahoo (3)Youtube (21)Zoom (7)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Tron: Ares, l’IA prende forma fisica nel mondo reale

Disney rilascia il primo trailer ufficiale di Tron: Ares, un film che esplora l’incontro tra intelligenza artificiale e realtà fisica, con l'estetica iconica della saga. Nel...

Computer quantistico da 56 qubit ottiene casualità certificata

Svolta nella crittografia quantistica: un sistema da 56 qubit ha generato numeri casuali verificabili, essenziali per la sicurezza digitale. Un team di ricercatori dell’Università del...

Meta rilascia il nuovo modello AI Llama 4

Meta ha annunciato il rilascio di Llama 4, il nuovo modello di intelligenza artificiale open-source progettato per essere più potente, sicuro e accessibile. Llama 4,...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines