Presentato al convegno ICLR 2023, “F-VLM: Open-vocabulary object detection upon frozen vision and language models” introduce un approccio semplice e scalabile per l’individuazione di oggetti a vocabolario aperto.
La raccolta di dati attraverso l’annotazione manuale di maschere di istanze o bounding box è costosa e limita il vocabolario moderno a circa 1000 classi di oggetti, rendendo difficile la descrizione del mondo visivo.
Tuttavia, recenti modelli di visione e linguaggio (VLM) come CLIP, hanno dimostrato la capacità di riconoscimento visivo aperto migliore grazie all’apprendimento da coppie immagine-testo di scala Internet.
Gli F-VLM usano la stessa tecnica, senza richiedere la messa a punto o la formazione di VLM per compiti di rilevamento a vocabolario aperto.
Si è scoperto che le caratteristiche di un VLM congelato contengono informazioni ricche e sensibili alla regione per descrivere le forme degli oggetti e discriminative per la classificazione regionale, motivando l’uso di F-VLM per l’individuazione di oggetti a vocabolario aperto. I F-VLM mantengono la conoscenza dei VLM preaddestrati, riducendo la complessità di addestramento, mantenendo la filosofia di ViTDet e separando l’apprendimento specifico del rilevatore dalla conoscenza di visione più generale nel backbone del rilevatore.