Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk; Rajiv Jain; Varun Manjunatha; Vlad I. Morariu; Ashutosh Mehra; Vicente Ordonez; Kate Saenko

← назад к публикациям

publication

Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk, Rajiv Jain, Varun Manjunatha, Vlad I. Morariu, Ashutosh Mehra, Vicente Ordonez, Kate Saenko.

Conference on Computer Vision and Pattern Recognition CVPR 2021.

статья pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Boston University и Adobe Research разработали новую технику под названием D-RISE, которая способна создавать визуальные объяснения того, почему система детекции объектов делает те или иные предсказания, — нечто, что оказалось удивительно трудно делать хорошо с помощью существующих инструментов. Детекторы объектов широко используются в приложениях компьютерного зрения, но печально известны своей трудной интерпретируемостью, а прежние методы объяснения разрабатывались для более простых задач классификации изображений, что делало их плохо подходящими для систем детекции, которые должны одновременно определять, что представляет собой объект и где он расположен в сцене. D-RISE работает, генерируя тысячи случайно замаскированных версий входного изображения, пропуская каждую через детектор, а затем измеряя, насколько сильно каждая замаскированная область повлияла на выход детектора, с помощью специальной метрики сходства, учитывающей как местоположение, так и категорию объекта. Взвешенная комбинация этих масок создаёт тепловую карту, показывающую, какие части изображения определили конкретное решение о детекции. При тестировании на эталонном наборе данных MS-COCO с использованием двух популярных архитектур детекторов — одноэтапного YOLOv3 и двухэтапного Faster R-CNN — D-RISE превзошёл градиентные базовые модели по стандартным метрикам оценки. Метод также выявил некоторые интересные формы поведения: детекторы часто полагаются на контекст за пределами ограничивающей рамки объекта, например используя лыжные палки для распознавания лыж, и склонны фокусироваться на конкретных различающих частях, а не на объектах целиком. В контролируемом эксперименте исследователи намеренно ввели искусственные предвзятости в обучающие данные и подтвердили, что D-RISE способен надёжно выявлять эти предвзятости в получившейся модели. Поскольку метод рассматривает детектор как чёрный ящик, не требующий доступа к внутренним весам или градиентам, его в принципе можно применять к любой системе детекции, включая проприетарные.

аннотация

Мы предлагаем D-RISE — метод генерации визуальных объяснений для предсказаний детекторов объектов. Использование предложенной метрики сходства, учитывающей как аспекты локализации, так и аспекты категоризации при детекции объектов, позволяет нашему методу строить карты значимости, которые показывают области изображения, наиболее влияющие на предсказание. D-RISE можно считать «чёрным ящиком» в смысле тестирования программного обеспечения, так как ему нужен доступ только к входным и выходным данным детектора объектов. По сравнению с градиентными методами, D-RISE более универсален и не зависит от конкретного типа тестируемого детектора объектов и не требует знаний о внутреннем устройстве модели. Мы показываем, что D-RISE можно легко применять к различным детекторам объектов, включая одноэтапные детекторы, такие как YOLOv3, и двухэтапные детекторы, такие как Faster-RCNN. Мы представляем подробный анализ сгенерированных визуальных объяснений, чтобы подчеркнуть использование контекста и возможные предвзятости, усвоенные детекторами объектов.

подробности

комментарий: CVPR 2021 (oral). Project page https://cs-people.bu.edu/vpetsiuk/drise/

цитирование

@inproceedings{petsiuk2021black,
  title = {Black-box Explanation of Object Detectors via Saliency Maps},
  author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
  year = {2021},
  booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
  url = {https://arxiv.org/abs/2006.03204},
}