Learn how REVEAL, an end-to-end retrieval-augmented visual-language model that learns to use multi-source multi-modal data to answer knowledge-intensive queries, achieves state-of-the-art results on visual question answering and image caption tasks. https://t.co/NXfVeLSD2e pic.twitter.com/tsY6Fy2SBk
— Google AI (@GoogleAI) June 1, 2023
Un gruppo di ricercatori ha presentato REVEAL, un modello innovativo che combina l’apprendimento multimodale e il recupero di informazioni per affrontare le sfide nel campo dell’elaborazione del linguaggio naturale e della visione artificiale.
Questo modello sfrutta una memoria multimodale multi-fonte per rispondere a query intensive di conoscenza. Durante l’addestramento, REVEAL apprende a recuperare informazioni da diverse fonti di conoscenza per rispondere alle domande complesse.
Questo approccio permette al modello di concentrarsi sul ragionamento riguardo alla query, anziché sulla memorizzazione. I ricercatori hanno dimostrato che REVEAL ottiene risultati all’avanguardia su compiti di risposta a domande visive e di descrizione di immagini, superando modelli precedenti come ViLBERT e LXMERT.
Questo modello promette di migliorare la capacità dei modelli di comprendere e utilizzare la conoscenza da fonti diverse, aprendo nuove possibilità per applicazioni multimodali nel futuro.