La segmentazione, ovvero l’identificazione dei pixel di un’immagine che appartengono ad un oggetto, è una delle principali attività nell’ambito della computer vision e trova applicazione in un’ampia gamma di settori, dalla scienza all’editing fotografico. Tuttavia, la creazione di un modello di segmentazione preciso per specifici compiti richiede solitamente il lavoro altamente specializzato di esperti tecnici con accesso all’infrastruttura di addestramento AI e grandi volumi di dati annotati in-domain. E’ possibile vedere esempi sul sito Meta“
Oggi, l’obiettivo è quello di democratizzare la segmentazione attraverso il progetto Segment Anything: una nuova attività, un dataset e un modello per la segmentazione delle immagini, come spiegato nel nostro articolo di ricerca. Rilasciamo sia il nostro modello di segmentazione generale Segment Anything (SAM) che il nostro dataset Segment Anything 1-Billion mask (SA-1B), il più grande dataset di segmentazione mai realizzato, per consentire un’ampia gamma di applicazioni e promuovere ulteriori ricerche sui modelli fondamentali per la computer vision. Mettiamo a disposizione il dataset SA-1B per scopi di ricerca e il modello Segment Anything è disponibile con una licenza open permissiva (Apache 2.0). Prova SAM con le tue immagini sul nostro demo.
La riduzione della necessità di competenze specifiche per la modellazione, il calcolo di addestramento e l’annotazione personalizzata dei dati per la segmentazione delle immagini è al centro del progetto Segment Anything. Per realizzare questa visione, il nostro obiettivo era quello di costruire un modello fondamentale per la segmentazione delle immagini: un modello promptable addestrato su dati diversi che può adattarsi a compiti specifici, analogamente a come i modelli di elaborazione del linguaggio naturale usano i prompt. Tuttavia, i dati di segmentazione necessari per addestrare un tale modello non sono facilmente disponibili online o altrove, a differenza di immagini, video e testo, che sono abbondanti su Internet. Pertanto, con Segment Anything, ci siamo posti l’obiettivo di sviluppare contemporaneamente un modello di segmentazione generale e promptable e utilizzarlo per creare un dataset di segmentazione di scala senza precedenti.
SAM ha appreso una nozione generale di ciò che sono gli oggetti e può generare maschere per qualsiasi oggetto in qualsiasi immagine o video, anche includendo oggetti e tipi di immagini che non ha incontrato durante l’addestramento. SAM è abbastanza generale per coprire un’ampia gamma di casi d’uso e può essere utilizzato fuori dalla scatola su nuovi “domini” di immagini, che si tratti di foto subacquee o di microscopia cellulare.