Nel mondo della ricerca sulla navigazione, un obiettivo ambizioso è quello di sviluppare un agente intelligente in grado di comprendere istruzioni multimodali, inclusi il linguaggio naturale e le immagini, per eseguire compiti di navigazione utili. Un nuovo studio propone una soluzione innovativa per raggiungere questo obiettivo: Mobility VLA. Questa tecnologia si concentra su una categoria di compiti di navigazione chiamata Multimodal Instruction Navigation con Tour Dimostrativi (MINT), dove l’ambiente viene presentato attraverso un video dimostrativo registrato in precedenza.
I recenti progressi nei modelli Vision-Language (VLMs) hanno mostrato una strada promettente per raggiungere questo traguardo, dimostrando capacità di percezione e ragionamento su input multimodali. Tuttavia, i VLMs sono tipicamente addestrati per prevedere output testuali, rendendo la loro applicazione nella navigazione una questione di ricerca aperta.
Mobility VLA introduce una politica di navigazione gerarchica chiamata Vision-Language-Action (VLA), che combina la comprensione dell’ambiente e il ragionamento del contesto lungo dei VLMs con una robusta politica di navigazione di basso livello basata su grafi topologici. La politica di alto livello utilizza un VLM a contesto lungo che prende il video del tour dimostrativo e le istruzioni multimodali dell’utente come input per trovare il fotogramma obiettivo nel video del tour. Successivamente, una politica di basso livello utilizza il fotogramma obiettivo e un grafo topologico costruito offline per generare azioni robotiche a ogni intervallo di tempo.
Mobility VLA è stato valutato in un ambiente reale di 836 metri quadrati, dimostrando un alto tasso di successo end-to-end su istruzioni multimodali precedentemente irrisolte, come “Dove dovrei restituire questo?” tenendo in mano un contenitore di plastica. Questa innovazione segna un passo significativo verso il futuro della navigazione intelligente.