Black-box Explanation of Object Detectors via Saliency Maps
Sintesi del comunicato stampa
I ricercatori della Boston University e di Adobe Research hanno sviluppato una nuova tecnica chiamata D-RISE in grado di produrre spiegazioni visive del perché un sistema di rilevamento di oggetti fa le previsioni che fa — qualcosa che si è rivelato sorprendentemente difficile da realizzare bene con gli strumenti esistenti. I rilevatori di oggetti sono ampiamente utilizzati nelle applicazioni di visione artificiale ma sono notoriamente difficili da interpretare, e i precedenti metodi di spiegazione erano progettati per i più semplici compiti di classificazione di immagini, rendendoli poco adatti ai sistemi di rilevamento che devono identificare contemporaneamente che cos'è un oggetto e dove si trova in una scena. D-RISE funziona generando migliaia di versioni mascherate in modo casuale di un'immagine in input, facendo passare ciascuna attraverso il rilevatore e poi misurando quanto ciascuna regione mascherata abbia influenzato l'output del rilevatore tramite una metrica di similarità personalizzata che tiene conto sia della posizione sia della categoria dell'oggetto. La combinazione pesata di tali maschere produce una mappa di calore che mostra quali parti dell'immagine hanno determinato una particolare decisione di rilevamento. Nei test sul dataset di riferimento MS-COCO utilizzando due architetture di rilevatori popolari — il rilevatore a uno stadio YOLOv3 e quello a due stadi Faster R-CNN — D-RISE ha superato i baseline basati sul gradiente sulle metriche di valutazione standard. Il metodo ha inoltre fatto emergere alcuni comportamenti interessanti: i rilevatori si affidano spesso al contesto esterno al riquadro di delimitazione di un oggetto, ad esempio usando i bastoncini da sci per aiutare a identificare gli sci, e tendono a concentrarsi su parti discriminative specifiche piuttosto che su oggetti interi. In un esperimento controllato, i ricercatori hanno introdotto deliberatamente pregiudizi artificiali nei dati di addestramento e hanno confermato che D-RISE era in grado di segnalare in modo affidabile tali pregiudizi nel modello risultante. Poiché il metodo tratta il rilevatore come una scatola nera che non richiede l'accesso a pesi o gradienti interni, può in linea di principio essere applicato a qualsiasi sistema di rilevamento, compresi quelli proprietari.
abstract
Proponiamo D-RISE, un metodo per generare spiegazioni visive delle previsioni dei rilevatori di oggetti. L'utilizzo della metrica di similarità proposta, che tiene conto sia degli aspetti di localizzazione sia di categorizzazione del rilevamento di oggetti, consente al nostro metodo di produrre mappe di salienza che mostrano le aree dell'immagine che influenzano maggiormente la previsione. D-RISE può essere considerato "black-box" nel senso del testing software, poiché necessita solo dell'accesso agli input e agli output di un rilevatore di oggetti. Rispetto ai metodi basati sul gradiente, D-RISE è più generale e agnostico rispetto al particolare tipo di rilevatore di oggetti testato, e non richiede la conoscenza del funzionamento interno del modello. Mostriamo che D-RISE può essere applicato facilmente a diversi rilevatori di oggetti, inclusi rilevatori a uno stadio come YOLOv3 e rilevatori a due stadi come Faster-RCNN. Presentiamo un'analisi dettagliata delle spiegazioni visive generate per evidenziare l'utilizzo del contesto e i possibili pregiudizi appresi dai rilevatori di oggetti.
dettagli
citazione
@inproceedings{petsiuk2021black,
title = {Black-box Explanation of Object Detectors via Saliency Maps},
author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
year = {2021},
booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
url = {https://arxiv.org/abs/2006.03204},
}