Black-box Explanation of Object Detectors via Saliency Maps
Краткое изложение пресс-релиза
Исследователи из Boston University и Adobe Research разработали новую технику под названием D-RISE, которая способна создавать визуальные объяснения того, почему система детекции объектов делает те или иные предсказания, — нечто, что оказалось удивительно трудно делать хорошо с помощью существующих инструментов. Детекторы объектов широко используются в приложениях компьютерного зрения, но печально известны своей трудной интерпретируемостью, а прежние методы объяснения разрабатывались для более простых задач классификации изображений, что делало их плохо подходящими для систем детекции, которые должны одновременно определять, что представляет собой объект и где он расположен в сцене. D-RISE работает, генерируя тысячи случайно замаскированных версий входного изображения, пропуская каждую через детектор, а затем измеряя, насколько сильно каждая замаскированная область повлияла на выход детектора, с помощью специальной метрики сходства, учитывающей как местоположение, так и категорию объекта. Взвешенная комбинация этих масок создаёт тепловую карту, показывающую, какие части изображения определили конкретное решение о детекции. При тестировании на эталонном наборе данных MS-COCO с использованием двух популярных архитектур детекторов — одноэтапного YOLOv3 и двухэтапного Faster R-CNN — D-RISE превзошёл градиентные базовые модели по стандартным метрикам оценки. Метод также выявил некоторые интересные формы поведения: детекторы часто полагаются на контекст за пределами ограничивающей рамки объекта, например используя лыжные палки для распознавания лыж, и склонны фокусироваться на конкретных различающих частях, а не на объектах целиком. В контролируемом эксперименте исследователи намеренно ввели искусственные предвзятости в обучающие данные и подтвердили, что D-RISE способен надёжно выявлять эти предвзятости в получившейся модели. Поскольку метод рассматривает детектор как чёрный ящик, не требующий доступа к внутренним весам или градиентам, его в принципе можно применять к любой системе детекции, включая проприетарные.
аннотация
Мы предлагаем D-RISE — метод генерации визуальных объяснений для предсказаний детекторов объектов. Использование предложенной метрики сходства, учитывающей как аспекты локализации, так и аспекты категоризации при детекции объектов, позволяет нашему методу строить карты значимости, которые показывают области изображения, наиболее влияющие на предсказание. D-RISE можно считать «чёрным ящиком» в смысле тестирования программного обеспечения, так как ему нужен доступ только к входным и выходным данным детектора объектов. По сравнению с градиентными методами, D-RISE более универсален и не зависит от конкретного типа тестируемого детектора объектов и не требует знаний о внутреннем устройстве модели. Мы показываем, что D-RISE можно легко применять к различным детекторам объектов, включая одноэтапные детекторы, такие как YOLOv3, и двухэтапные детекторы, такие как Faster-RCNN. Мы представляем подробный анализ сгенерированных визуальных объяснений, чтобы подчеркнуть использование контекста и возможные предвзятости, усвоенные детекторами объектов.
подробности
цитирование
@inproceedings{petsiuk2021black,
title = {Black-box Explanation of Object Detectors via Saliency Maps},
author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
year = {2021},
booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
url = {https://arxiv.org/abs/2006.03204},
}