보도 자료 요약
Boston University와 Adobe Research의 연구진은 객체 검출 시스템이 왜 그러한 예측을 내리는지에 대한 시각적 설명을 생성할 수 있는 D-RISE라는 새로운 기법을 개발했는데, 이는 기존 도구로는 제대로 수행하기가 놀랍도록 어려웠던 일이다. 객체 검출기는 컴퓨터 비전 응용에서 널리 사용되지만 해석하기가 악명 높게 어려우며, 기존 설명 방법은 더 단순한 이미지 분류 작업을 위해 설계되어, 무엇이 객체인지와 그것이 장면의 어디에 있는지를 동시에 식별해야 하는 검출 시스템에는 적합하지 않았다. D-RISE는 입력 이미지의 무작위로 마스킹된 수천 개의 버전을 생성하고, 각각을 검출기에 입력한 다음, 객체의 위치와 범주를 모두 고려하는 맞춤형 유사도 척도를 사용하여 각 마스킹된 영역이 검출기의 출력에 얼마나 영향을 미쳤는지를 측정하는 방식으로 작동한다. 그러한 마스크의 가중 결합은 이미지의 어느 부분이 특정 검출 결정을 이끌었는지를 보여주는 히트맵을 생성한다. 1단계 검출기 YOLOv3와 2단계 검출기 Faster R-CNN이라는 두 가지 인기 있는 검출기 아키텍처를 사용하여 MS-COCO 벤치마크 데이터셋에서 테스트한 결과, D-RISE는 표준 평가 지표에서 기울기 기반 기준선을 능가했다. 이 방법은 또한 몇 가지 흥미로운 행동을 드러냈다: 검출기는 스키를 식별하는 데 스키 폴을 활용하는 것처럼 객체의 바운딩 박스 바깥의 맥락에 빈번하게 의존하며, 전체 객체보다는 특정한 변별적 부위에 집중하는 경향이 있다. 통제된 실험에서 연구진은 학습 데이터에 인위적 편향을 의도적으로 도입했고, D-RISE가 그 결과 모델에서 그러한 편향을 신뢰성 있게 표시할 수 있음을 확인했다. 이 방법은 검출기를 내부 가중치나 기울기에 대한 접근이 필요 없는 블랙박스로 취급하기 때문에, 원칙적으로 독점적인 시스템을 포함한 모든 검출 시스템에 적용될 수 있다.
초록
우리는 객체 검출기의 예측에 대한 시각적 설명을 생성하는 방법인 D-RISE를 제안한다. 객체 검출의 위치 파악과 범주 분류 측면을 모두 고려하는, 제안된 유사도 척도를 활용함으로써 우리 방법은 예측에 가장 큰 영향을 미치는 이미지 영역을 보여주는 현저성 지도(saliency map)를 생성할 수 있다. D-RISE는 객체 검출기의 입력과 출력에만 접근하면 되므로 소프트웨어 테스팅의 의미에서 "블랙박스"로 간주될 수 있다. 기울기 기반 방법과 비교하여, D-RISE는 더 일반적이며 테스트되는 특정 유형의 객체 검출기에 구애받지 않고, 모델의 내부 작동에 대한 지식을 필요로 하지 않는다. 우리는 D-RISE가 YOLOv3와 같은 1단계 검출기와 Faster-RCNN과 같은 2단계 검출기를 포함한 다양한 객체 검출기에 쉽게 적용될 수 있음을 보인다. 우리는 객체 검출기가 학습한 맥락의 활용과 가능한 편향을 부각하기 위해 생성된 시각적 설명에 대한 상세한 분석을 제시한다.
세부 정보
인용
@inproceedings{petsiuk2021black,
title = {Black-box Explanation of Object Detectors via Saliency Maps},
author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
year = {2021},
booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
url = {https://arxiv.org/abs/2006.03204},
}