プレスリリース要約
ボストン大学とAdobe Researchの研究者らは、物体検出システムがなぜそのような予測を下すのかについて視覚的説明を生成できる、D-RISEと呼ばれる新しい手法を開発した。これは既存のツールではうまく行うことが意外なほど困難であることが判明していた課題である。物体検出器はコンピュータビジョンの応用で広く使われているが、その解釈は非常に難しいことで知られており、従来の説明手法はより単純な画像分類タスク向けに設計されていたため、物体が何であるかとシーン内のどこに位置するかを同時に識別しなければならない検出システムには適していなかった。D-RISEは、入力画像にランダムにマスクをかけた版を何千枚も生成し、それぞれを検出器に通したうえで、物体の位置とカテゴリの両方を考慮した独自の類似度尺度を用いて、各マスク領域が検出器の出力にどれほど影響を与えたかを測定することで機能する。それらのマスクを重み付けして組み合わせることで、画像のどの部分が特定の検出判断を導いたかを示すヒートマップが生成される。1段階のYOLOv3と2段階のFaster R-CNNという2つの人気のある検出器アーキテクチャを用いてMS-COCOベンチマークデータセットでテストしたところ、D-RISEは標準的な評価指標において勾配ベースのベースラインを上回った。この手法はまた、いくつかの興味深い挙動も明らかにした。検出器は、スキーを識別するためにストックを使うなど、物体のバウンディングボックスの外側にある文脈にしばしば依存し、物体全体ではなく特定の識別的な部分に注目する傾向がある。統制された実験では、研究者らは訓練データに意図的に人工的なバイアスを導入し、D-RISEが得られたモデルにおいてそれらのバイアスを確実に検出できることを確認した。この手法は検出器を内部の重みや勾配へのアクセスを必要としないブラックボックスとして扱うため、原理的には独自仕様のものを含むあらゆる検出システムに適用できる。
要旨
我々は、物体検出器の予測に対する視覚的説明を生成する手法であるD-RISEを提案する。物体検出の位置特定と分類の両側面を考慮した、提案する類似度尺度を活用することで、本手法は予測に最も影響を与える画像領域を示す顕著性マップを生成できる。D-RISEは、物体検出器の入力と出力にアクセスするだけでよいため、ソフトウェアテストの意味で「ブラックボックス」とみなすことができる。勾配ベースの手法と比較して、D-RISEはより汎用的であり、テスト対象となる物体検出器の特定の種類に依存せず、モデルの内部動作に関する知識を必要としない。我々は、D-RISEがYOLOv3のような1段階検出器やFaster-RCNNのような2段階検出器を含む、さまざまな物体検出器に容易に適用できることを示す。生成された視覚的説明の詳細な分析を提示し、物体検出器が学習した文脈の利用と起こりうるバイアスを明らかにする。
詳細
引用
@inproceedings{petsiuk2021black,
title = {Black-box Explanation of Object Detectors via Saliency Maps},
author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
year = {2021},
booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
url = {https://arxiv.org/abs/2006.03204},
}