Google presenta il modello AI PaLM-E, un cervello robotico generalista che integra visione e linguaggio per il controllo robotico. Il modello multimodale di linguaggio visivo incarnato (VLM) con 562 miliardi di parametri è il più grande VLM mai sviluppato e può eseguire una varietà di compiti senza la necessità di riqualificazione. Il modello PaLM-E analizza i dati dalla telecamera del robot senza bisogno di una rappresentazione della scena pre-elaborata, consentendo un controllo robotico più autonomo.
Secondo Google, quando viene dato un comando di alto livello, come “portami le patatine di riso dal cassetto”, PaLM-E può generare un piano d’azione per una piattaforma robotica mobile con un braccio ed eseguire le azioni di per sé. In un video dimostrativo fornito da Google, PaLM-E esegue “portami le patatine di riso dal cassetto”, che include più passaggi di pianificazione oltre a incorporare il feedback visivo dalla videocamera del robot.
Il modello PaLM-E è resistente e può reagire al suo ambiente. Ad esempio, può guidare un robot a prendere un sacchetto di patatine da una cucina e diventa resistente alle interruzioni che potrebbero verificarsi durante l’attività. In un esempio video, un ricercatore prende i chip dal robot e li sposta, ma il robot individua i chip e li afferra di nuovo.
In un altro esempio, lo stesso modello PaLM-E controlla autonomamente un robot attraverso compiti con sequenze complesse che in precedenza richiedevano la guida umana. Il documento di ricerca di Google spiega come PaLM-E trasforma le istruzioni in azioni.
Poiché si basa su un modello linguistico, PaLM-E acquisisce osservazioni continue, come immagini o dati di sensori, e le codifica in una sequenza di vettori delle stesse dimensioni dei token linguistici. Ciò consente al modello di “capire” le informazioni sensoriali nello stesso modo in cui elabora il linguaggio.
PaLM-E è un predittore del token successivo e si chiama “PaLM-E” perché si basa sul modello LLM (large language model) esistente di Google chiamato “PaLM” (che è simile alla tecnologia alla base di ChatGPT). Google ha reso PaLM “incarnato” aggiungendo informazioni sensoriali e controllo robotico.
Il modello PaLM-E è un passo avanti nella direzione dell’intelligenza artificiale integrata nel mondo reale. Consente una maggiore autonomia ai robot, eliminando la necessità di rappresentazioni pre-elaborate della scena, e semplificando il processo di controllo del robot da parte degli esseri umani. Inoltre, grazie alla sua grande capacità e alla sua resistenza, può eseguire una vasta gamma di compiti senza la necessità di essere riqualificato.
What happens when we train the largest vision-language model and add in robot experiences?
— Danny Driess (@DannyDriess) March 7, 2023
The result is PaLM-E 🌴🤖, a 562-billion parameter, general-purpose, embodied visual-language generalist – across robotics, vision, and language.
Website: https://t.co/ouMkeQiGr5 pic.twitter.com/5qfK23g52d
In a different domain, here the **same** exact PaLM-E model is controlling a robot in real-time. This robot recently required human assistance to guide it through very long-horizon tasks (https://t.co/WkjIxMtRVz), but now PaLM-E can learn these tasks autonomously. pic.twitter.com/f02F74edMV
— Danny Driess (@DannyDriess) March 7, 2023
PaLM-E is the largest VLM reported to date. We observe emergent capabilities like multimodal chain of thought reasoning, and multi-image inference, despite being trained on only single-image prompts. Though not the focus of our work, PaLM-E sets a new SOTA on OK-VQA benchmark. pic.twitter.com/9FHug25tOF
— Danny Driess (@DannyDriess) March 7, 2023
_________
“Google’s PaLM-E is a generalist robot brain that takes commands“
“Google’s Large Language Model Takes Control“
“PaLM-E: An embodied multimodal language model“
“PaLM-E: An Embodied Multimodal Language Model“
“Scaling Vision Transformers to 22 Billion Parameters“
“PaLM-E: An Embodied Multimodal Language Model“
“RT-1: Robotics Transformer for real-world control at scale“