新闻稿摘要
波士顿大学和 Adobe Research 的研究人员开发了一种名为 D-RISE 的新技术,能够为物体检测系统做出某项预测的原因生成视觉解释——而用现有工具很好地做到这一点出人意料地困难。物体检测器在计算机视觉应用中被广泛使用,但其可解释性出了名地差,而先前的解释方法是为更简单的图像分类任务设计的,因此并不适合那些必须同时识别物体是什么以及它在场景中位于何处的检测系统。D-RISE 的工作方式是:生成输入图像的数千个随机掩码版本,将每个版本馈送给检测器,然后使用一个同时考虑物体位置和类别的自定义相似性度量来衡量每个被掩码区域对检测器输出的影响程度。这些掩码的加权组合产生一张热图,显示出图像的哪些部分驱动了某个特定的检测决策。在 MS-COCO 基准数据集上使用两种流行的检测器架构——单阶段的 YOLOv3 和两阶段的 Faster R-CNN——进行测试时,D-RISE 在标准评估指标上优于基于梯度的基线。该方法还揭示了一些有趣的行为:检测器经常依赖物体边界框之外的上下文,例如利用滑雪杖来帮助识别滑雪板,并且倾向于关注特定的判别性部分而非整个物体。在一项受控实验中,研究人员故意向训练数据中引入人为偏见,并证实 D-RISE 能够可靠地在所得到的模型中标记出这些偏见。由于该方法将检测器视为黑盒,无需访问内部权重或梯度,因此原则上可应用于任何检测系统,包括专有系统。
摘要
我们提出 D-RISE,一种为物体检测器的预测生成视觉解释的方法。利用所提出的同时考虑物体检测中定位和分类两方面的相似性度量,我们的方法能够生成显著性图(saliency maps),显示出对预测影响最大的图像区域。从软件测试的意义上讲,D-RISE 可被视为“黑盒”方法,因为它只需访问物体检测器的输入和输出。与基于梯度的方法相比,D-RISE 更通用,对所测试的特定类型物体检测器不可知,且无需了解模型的内部工作原理。我们表明,D-RISE 可以轻松应用于不同的物体检测器,包括单阶段检测器(如 YOLOv3)和两阶段检测器(如 Faster-RCNN)。我们对生成的视觉解释进行了详细分析,以突出物体检测器对上下文的利用以及可能学到的偏见。
详情
引用
@inproceedings{petsiuk2021black,
title = {Black-box Explanation of Object Detectors via Saliency Maps},
author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
year = {2021},
booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
url = {https://arxiv.org/abs/2006.03204},
}