Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk; Rajiv Jain; Varun Manjunatha; Vlad I. Morariu; Ashutosh Mehra; Vicente Ordonez; Kate Saenko

← voltar às publicações

publication

Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk, Rajiv Jain, Varun Manjunatha, Vlad I. Morariu, Ashutosh Mehra, Vicente Ordonez, Kate Saenko.

Conference on Computer Vision and Pattern Recognition CVPR 2021.

artigo pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Boston University e da Adobe Research desenvolveram uma nova técnica chamada D-RISE que pode produzir explicações visuais sobre por que um sistema de detecção de objetos faz as previsões que faz — algo que tem se mostrado surpreendentemente difícil de fazer bem com as ferramentas existentes. Os detectores de objetos são amplamente utilizados em aplicações de visão computacional, mas são notoriamente difíceis de interpretar, e os métodos de explicação anteriores foram projetados para tarefas mais simples de classificação de imagens, tornando-os pouco adequados para sistemas de detecção que precisam simultaneamente identificar o que é um objeto e onde ele se encontra em uma cena. O D-RISE funciona gerando milhares de versões mascaradas aleatoriamente de uma imagem de entrada, passando cada uma pelo detector e, em seguida, medindo o quanto cada região mascarada influenciou a saída do detector usando uma métrica de similaridade personalizada que leva em conta tanto a localização quanto a categoria do objeto. A combinação ponderada dessas máscaras produz um mapa de calor que mostra quais partes da imagem motivaram uma decisão de detecção específica. Em testes no conjunto de dados de referência MS-COCO usando duas arquiteturas populares de detectores — o YOLOv3 de estágio único e o Faster R-CNN de dois estágios — o D-RISE superou as abordagens de base baseadas em gradiente nas métricas de avaliação padrão. O método também revelou alguns comportamentos interessantes: os detectores frequentemente dependem de contexto fora da caixa delimitadora de um objeto, como usar bastões de esqui para ajudar a identificar esquis, e tendem a focar em partes discriminativas específicas em vez de objetos inteiros. Em um experimento controlado, os pesquisadores introduziram deliberadamente vieses artificiais nos dados de treinamento e confirmaram que o D-RISE poderia sinalizar de forma confiável esses vieses no modelo resultante. Como o método trata o detector como uma caixa-preta que não requer acesso a pesos internos ou gradientes, ele pode, em princípio, ser aplicado a qualquer sistema de detecção, inclusive proprietários.

resumo

Propomos o D-RISE, um método para gerar explicações visuais para as previsões de detectores de objetos. A utilização da métrica de similaridade proposta, que leva em conta tanto os aspectos de localização quanto de categorização da detecção de objetos, permite que nosso método produza mapas de saliência que mostram as áreas da imagem que mais afetam a previsão. O D-RISE pode ser considerado "caixa-preta" no sentido de teste de software, pois precisa apenas de acesso às entradas e saídas de um detector de objetos. Comparado a métodos baseados em gradiente, o D-RISE é mais geral e agnóstico ao tipo específico de detector de objetos sendo testado, e não requer conhecimento do funcionamento interno do modelo. Mostramos que o D-RISE pode ser facilmente aplicado a diferentes detectores de objetos, incluindo detectores de estágio único como o YOLOv3 e detectores de dois estágios como o Faster-RCNN. Apresentamos uma análise detalhada das explicações visuais geradas para destacar a utilização do contexto e possíveis vieses aprendidos pelos detectores de objetos.

detalhes

comentário: CVPR 2021 (oral). Project page https://cs-people.bu.edu/vpetsiuk/drise/

citação

@inproceedings{petsiuk2021black,
  title = {Black-box Explanation of Object Detectors via Saliency Maps},
  author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
  year = {2021},
  booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
  url = {https://arxiv.org/abs/2006.03204},
}