Chair Segments: A Compact Benchmark for the Study of Object Segmentation

Leticia Pinto-Alva; Ian K. Torres; Rosangel Garcia; Ziyan Yang; Vicente Ordonez

← torna alle pubblicazioni

publication

Chair Segments: A Compact Benchmark for the Study of Object Segmentation

Leticia Pinto-Alva, Ian K. Torres, Rosangel Garcia, Ziyan Yang, Vicente Ordonez.

arxiv:2011.14027 Nov 2020.

articolo code pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della University of Virginia e istituzioni collaboratrici hanno rilasciato un nuovo dataset chiamato Chair Segments, progettato per offrire agli scienziati della visione artificiale un modo più rapido ed economico per testare gli algoritmi di segmentazione di immagini. Il problema centrale che hanno individuato è che i dataset di segmentazione esistenti — come COCO o PASCAL VOC — sono grandi, costosi da annotare e costringono i modelli a gestire contemporaneamente il riconoscimento, la localizzazione e il mascheramento a livello di pixel degli oggetti, rendendo difficile isolare e iterare rapidamente su idee specifiche per la segmentazione. Per aggirare questo problema, il team ha costruito un dataset semi-sintetico di circa 900 immagini di sedie con sfondi trasparenti, composite su 10.000 immagini diversificate di scene interne ed esterne, producendo 50.000 composizioni di addestramento con maschere di verità fondamentale perfette a livello di pixel che non hanno richiesto alcuna annotazione manuale. I ricercatori hanno scelto le sedie deliberatamente: la categoria è notoriamente difficile da segmentare a causa di parti sottili, cave e che si auto-occludono, ed è tra le più ardue nei benchmark esistenti. I loro esperimenti hanno mostrato che un modello U-Net può essere addestrato fino alla piena convergenza sul dataset in circa 30 minuti su una singola GPU a risoluzione 64×64 — all'incirca il livello di complessità di CIFAR-10 per la classificazione — pur distinguendo in modo significativo tra architetture più forti e più deboli. È importante notare che i modelli preaddestrati su Chair Segments e poi perfezionati sul dataset Object Discovery non correlato (che copre automobili, cavalli e aeroplani) hanno battuto tutti i metodi pubblicati in precedenza su quel benchmark, suggerendo che i dati semi-sintetici catturano caratteristiche del mondo reale realmente utili. Il team ha inoltre confermato, per la prima volta nella segmentazione, uno schema osservato in precedenza nella classificazione di immagini: i modelli perfezionati dagli stessi pesi preaddestrati si raggruppano nel paesaggio di ottimizzazione e transitano agevolmente l'uno nell'altro, mentre i modelli addestrati da inizializzazione casuale non lo fanno — una scoperta con implicazioni pratiche su come i modelli di segmentazione potrebbero essere inizializzati e combinati in ensemble.

abstract

Nel corso degli anni, i dataset e i benchmark hanno avuto un'influenza enorme sulla progettazione di nuovi algoritmi. In questo articolo presentiamo ChairSegments, un nuovo dataset semi-sintetico e compatto per la segmentazione di oggetti. Mostriamo inoltre risultati empirici nel transfer learning che rispecchiano le recenti scoperte relative alla classificazione di immagini. In particolare, mostriamo che i modelli perfezionati a partire da un insieme di pesi preaddestrati si collocano nello stesso bacino del paesaggio di ottimizzazione. ChairSegments è costituito da un insieme diversificato di immagini prototipiche di sedie con sfondi trasparenti composite su una vasta gamma di sfondi. Il nostro obiettivo è che ChairSegments sia l'equivalente del dataset CIFAR-10 ma per progettare e iterare rapidamente su nuove architetture di modelli per la segmentazione. Su Chair Segments, un modello U-Net può essere addestrato fino alla piena convergenza in soli trenta minuti utilizzando una singola GPU. Infine, sebbene questo dataset sia semi-sintetico, può costituire un utile surrogato dei dati reali, portando a un'accuratezza allo stato dell'arte sul dataset Object Discovery quando utilizzato come fonte di preaddestramento.

dettagli

commento: 10 pages, 7 figures

citazione

@article{pintoalva2011chair,
  title = {Chair Segments: A Compact Benchmark for the Study of Object Segmentation},
  author = {Pinto-Alva, Leticia and Torres, Ian K. and Garcia, Rosangel and Yang, Ziyan and Ordonez, Vicente},
  year = {2011},
  journal = {arxiv:2011.14027 Nov 2020.},
  url = {https://arxiv.org/abs/2012.01250},
}