Black-box Explanation of Object Detectors via Saliency Maps
publication

Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk, Rajiv Jain, Varun Manjunatha, Vlad I. Morariu, Ashutosh Mehra, Vicente Ordonez, Kate Saenko.
Conference on Computer Vision and Pattern Recognition CVPR 2021.
Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad de Boston y Adobe Research han desarrollado una nueva técnica llamada D-RISE que puede producir explicaciones visuales de por qué un sistema de detección de objetos hace las predicciones que hace — algo que ha resultado sorprendentemente difícil de lograr bien con las herramientas existentes. Los detectores de objetos se usan ampliamente en aplicaciones de visión por computadora pero son notoriamente difíciles de interpretar, y los métodos de explicación previos fueron diseñados para tareas más simples de clasificación de imágenes, lo que los hacía poco adecuados para los sistemas de detección que deben identificar simultáneamente qué es un objeto y dónde se ubica en una escena. D-RISE funciona generando miles de versiones enmascaradas al azar de una imagen de entrada, pasando cada una por el detector y midiendo luego cuánto influyó cada región enmascarada en la salida del detector usando una métrica de similitud personalizada que tiene en cuenta tanto la ubicación como la categoría del objeto. La combinación ponderada de esas máscaras produce un mapa de calor que muestra qué partes de la imagen impulsaron una decisión de detección particular. En pruebas sobre el conjunto de datos de referencia MS-COCO usando dos arquitecturas de detector populares — el YOLOv3 de una etapa y el Faster R-CNN de dos etapas —, D-RISE superó a las líneas base basadas en gradientes en métricas de evaluación estándar. El método también sacó a la luz algunos comportamientos interesantes: los detectores frecuentemente se apoyan en el contexto fuera del cuadro delimitador de un objeto, como usar los bastones de esquí para ayudar a identificar los esquís, y tienden a centrarse en partes discriminativas específicas en lugar de en objetos completos. En un experimento controlado, los investigadores introdujeron deliberadamente sesgos artificiales en los datos de entrenamiento y confirmaron que D-RISE podía señalar de forma fiable esos sesgos en el modelo resultante. Dado que el método trata al detector como una caja negra que no requiere acceso a pesos o gradientes internos, en principio puede aplicarse a cualquier sistema de detección, incluyendo los propietarios.

resumen

Proponemos D-RISE, un método para generar explicaciones visuales para las predicciones de los detectores de objetos. Utilizando la métrica de similitud propuesta que tiene en cuenta tanto los aspectos de localización como de categorización de la detección de objetos, nuestro método puede producir mapas de saliencia que muestran las áreas de la imagen que más afectan a la predicción. D-RISE puede considerarse de "caja negra" en el sentido de las pruebas de software, ya que solo necesita acceso a las entradas y salidas de un detector de objetos. En comparación con los métodos basados en gradientes, D-RISE es más general y agnóstico respecto al tipo particular de detector de objetos que se está probando, y no necesita conocimiento del funcionamiento interno del modelo. Mostramos que D-RISE puede aplicarse fácilmente a diferentes detectores de objetos, incluyendo detectores de una etapa como YOLOv3 y detectores de dos etapas como Faster-RCNN. Presentamos un análisis detallado de las explicaciones visuales generadas para resaltar la utilización del contexto y los posibles sesgos aprendidos por los detectores de objetos.

detalles

comentario
CVPR 2021 (oral). Project page https://cs-people.bu.edu/vpetsiuk/drise/

cita

@inproceedings{petsiuk2021black,
  title = {Black-box Explanation of Object Detectors via Saliency Maps},
  author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
  year = {2021},
  booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
  url = {https://arxiv.org/abs/2006.03204},
}