Black-box Explanation of Object Detectors via Saliency Maps
publication

Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk, Rajiv Jain, Varun Manjunatha, Vlad I. Morariu, Ashutosh Mehra, Vicente Ordonez, Kate Saenko.
Conference on Computer Vision and Pattern Recognition CVPR 2021.
Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forscher der Boston University und von Adobe Research haben eine neue Technik namens D-RISE entwickelt, die visuelle Erklärungen dafür liefern kann, warum ein Objekterkennungssystem die Vorhersagen trifft, die es trifft — etwas, das sich mit bestehenden Werkzeugen als überraschend schwer gut umsetzbar erwiesen hat. Objektdetektoren werden in Anwendungen des maschinellen Sehens breit eingesetzt, sind aber notorisch schwer zu interpretieren, und frühere Erklärungsmethoden waren für einfachere Bildklassifikationsaufgaben konzipiert, was sie schlecht geeignet macht für Erkennungssysteme, die gleichzeitig identifizieren müssen, was ein Objekt ist und wo es sich in einer Szene befindet. D-RISE funktioniert, indem es Tausende von zufällig maskierten Versionen eines Eingabebildes erzeugt, jede durch den Detektor leitet und dann mithilfe einer maßgeschneiderten Ähnlichkeitsmetrik, die sowohl die Objektposition als auch die Kategorie berücksichtigt, misst, wie stark jede maskierte Region die Ausgabe des Detektors beeinflusst hat. Die gewichtete Kombination dieser Masken erzeugt eine Heatmap, die zeigt, welche Teile des Bildes eine bestimmte Erkennungsentscheidung vorangetrieben haben. Bei Tests auf dem MS-COCO-Benchmark-Datensatz unter Verwendung zweier verbreiteter Detektorarchitekturen — des einstufigen YOLOv3 und des zweistufigen Faster R-CNN — übertraf D-RISE gradientenbasierte Baselines bei Standard-Evaluationsmetriken. Die Methode brachte zudem einige interessante Verhaltensweisen ans Licht: Detektoren stützen sich häufig auf Kontext außerhalb des Begrenzungsrahmens eines Objekts, etwa indem sie Skistöcke nutzen, um Skier zu erkennen, und neigen dazu, sich eher auf bestimmte unterscheidungskräftige Teile als auf ganze Objekte zu konzentrieren. In einem kontrollierten Experiment führten die Forscher bewusst künstliche Verzerrungen in die Trainingsdaten ein und bestätigten, dass D-RISE diese Verzerrungen im resultierenden Modell zuverlässig kennzeichnen konnte. Da die Methode den Detektor als Black Box behandelt und keinen Zugriff auf interne Gewichte oder Gradienten benötigt, kann sie im Prinzip auf jedes Erkennungssystem angewendet werden, einschließlich proprietärer Systeme.

Zusammenfassung

Wir schlagen D-RISE vor, eine Methode zur Erzeugung visueller Erklärungen für die Vorhersagen von Objektdetektoren. Durch die Verwendung der vorgeschlagenen Ähnlichkeitsmetrik, die sowohl die Lokalisierungs- als auch die Kategorisierungsaspekte der Objekterkennung berücksichtigt, kann unsere Methode Saliency Maps erzeugen, die diejenigen Bildbereiche zeigen, die die Vorhersage am stärksten beeinflussen. D-RISE kann im Sinne des Softwaretests als "Black-Box" betrachtet werden, da es nur Zugriff auf die Eingaben und Ausgaben eines Objektdetektors benötigt. Im Vergleich zu gradientenbasierten Methoden ist D-RISE allgemeiner und unabhängig vom konkreten Typ des getesteten Objektdetektors und benötigt kein Wissen über die internen Funktionsweisen des Modells. Wir zeigen, dass D-RISE problemlos auf verschiedene Objektdetektoren angewendet werden kann, darunter einstufige Detektoren wie YOLOv3 und zweistufige Detektoren wie Faster-RCNN. Wir präsentieren eine detaillierte Analyse der erzeugten visuellen Erklärungen, um die Nutzung des Kontexts und mögliche von Objektdetektoren erlernte Verzerrungen herauszustellen.

Details

Anmerkung
CVPR 2021 (oral). Project page https://cs-people.bu.edu/vpetsiuk/drise/

Zitation

@inproceedings{petsiuk2021black,
  title = {Black-box Explanation of Object Detectors via Saliency Maps},
  author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
  year = {2021},
  booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
  url = {https://arxiv.org/abs/2006.03204},
}