Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk; Rajiv Jain; Varun Manjunatha; Vlad I. Morariu; Ashutosh Mehra; Vicente Ordonez; Kate Saenko

← retour aux publications

publication

Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk, Rajiv Jain, Varun Manjunatha, Vlad I. Morariu, Ashutosh Mehra, Vicente Ordonez, Kate Saenko.

Conference on Computer Vision and Pattern Recognition CVPR 2021.

article pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'université de Boston et d'Adobe Research ont mis au point une nouvelle technique appelée D-RISE qui peut produire des explications visuelles des raisons pour lesquelles un système de détection d'objets fait les prédictions qu'il fait — une tâche qui s'est révélée étonnamment difficile à bien réaliser avec les outils existants. Les détecteurs d'objets sont largement utilisés dans les applications de vision par ordinateur mais sont notoirement difficiles à interpréter, et les méthodes d'explication antérieures étaient conçues pour des tâches plus simples de classification d'images, ce qui les rendait peu adaptées aux systèmes de détection qui doivent simultanément identifier ce qu'est un objet et où il se situe dans une scène. D-RISE fonctionne en générant des milliers de versions masquées aléatoirement d'une image d'entrée, en faisant passer chacune à travers le détecteur, puis en mesurant à quel point chaque région masquée a influencé la sortie du détecteur à l'aide d'une métrique de similarité sur mesure qui tient compte à la fois de l'emplacement et de la catégorie de l'objet. La combinaison pondérée de ces masques produit une carte de chaleur montrant quelles parties de l'image ont motivé une décision de détection particulière. Lors de tests sur le jeu de données de référence MS-COCO en utilisant deux architectures de détecteurs populaires — le YOLOv3 à une étape et le Faster R-CNN à deux étapes — D-RISE a surpassé les méthodes de référence fondées sur le gradient sur les métriques d'évaluation standard. La méthode a également révélé des comportements intéressants : les détecteurs s'appuient fréquemment sur le contexte situé en dehors de la boîte englobante d'un objet, par exemple en utilisant des bâtons de ski pour aider à identifier des skis, et tendent à se concentrer sur des parties discriminantes spécifiques plutôt que sur des objets entiers. Dans une expérience contrôlée, les chercheurs ont délibérément introduit des biais artificiels dans les données d'entraînement et ont confirmé que D-RISE pouvait signaler de manière fiable ces biais dans le modèle obtenu. Parce que la méthode traite le détecteur comme une boîte noire ne nécessitant aucun accès aux poids ou gradients internes, elle peut en principe s'appliquer à n'importe quel système de détection, y compris propriétaire.

résumé

Nous proposons D-RISE, une méthode permettant de générer des explications visuelles pour les prédictions des détecteurs d'objets. En s'appuyant sur la métrique de similarité proposée, qui tient compte à la fois des aspects de localisation et de catégorisation de la détection d'objets, notre méthode produit des cartes de saillance montrant les zones de l'image qui influencent le plus la prédiction. D-RISE peut être considérée comme « boîte noire » au sens du test logiciel, car elle ne nécessite qu'un accès aux entrées et aux sorties d'un détecteur d'objets. Comparée aux méthodes fondées sur le gradient, D-RISE est plus générale et indépendante du type particulier de détecteur d'objets testé, et n'exige aucune connaissance du fonctionnement interne du modèle. Nous montrons que D-RISE peut s'appliquer facilement à différents détecteurs d'objets, y compris des détecteurs à une étape tels que YOLOv3 et des détecteurs à deux étapes tels que Faster-RCNN. Nous présentons une analyse détaillée des explications visuelles générées afin de mettre en évidence l'utilisation du contexte et les biais éventuels appris par les détecteurs d'objets.

détails

commentaire: CVPR 2021 (oral). Project page https://cs-people.bu.edu/vpetsiuk/drise/

citation

@inproceedings{petsiuk2021black,
  title = {Black-box Explanation of Object Detectors via Saliency Maps},
  author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
  year = {2021},
  booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
  url = {https://arxiv.org/abs/2006.03204},
}