Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk; Rajiv Jain; Varun Manjunatha; Vlad I. Morariu; Ashutosh Mehra; Vicente Ordonez; Kate Saenko

← quay lại danh sách công bố

publication

Black-box Explanation of Object Detectors via Saliency Maps

Vitali Petsiuk, Rajiv Jain, Varun Manjunatha, Vlad I. Morariu, Ashutosh Mehra, Vicente Ordonez, Kate Saenko.

Conference on Computer Vision and Pattern Recognition CVPR 2021.

bài báo pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu từ Boston University và Adobe Research đã phát triển một kỹ thuật mới gọi là D-RISE có thể tạo ra các giải thích trực quan cho lý do tại sao một hệ thống phát hiện đối tượng đưa ra các dự đoán của nó — một điều đã được chứng minh là khó thực hiện tốt một cách đáng ngạc nhiên với các công cụ hiện có. Các bộ phát hiện đối tượng được sử dụng rộng rãi trong các ứng dụng thị giác máy tính nhưng nổi tiếng là khó diễn giải, và các phương pháp giải thích trước đây được thiết kế cho các tác vụ phân loại ảnh đơn giản hơn, khiến chúng kém phù hợp với các hệ thống phát hiện vốn phải đồng thời nhận diện một đối tượng là gì và nó nằm ở đâu trong một cảnh. D-RISE hoạt động bằng cách tạo ra hàng nghìn phiên bản được che ngẫu nhiên của một ảnh đầu vào, đưa từng phiên bản qua bộ phát hiện, rồi đo lường mỗi vùng được che ảnh hưởng bao nhiêu đến đầu ra của bộ phát hiện bằng một thước đo tương đồng tùy chỉnh có tính đến cả vị trí lẫn loại đối tượng. Sự kết hợp có trọng số của các mặt nạ đó tạo ra một bản đồ nhiệt cho thấy phần nào của ảnh đã thúc đẩy một quyết định phát hiện cụ thể. Trong các thử nghiệm trên bộ dữ liệu benchmark MS-COCO sử dụng hai kiến trúc bộ phát hiện phổ biến — YOLOv3 một giai đoạn và Faster R-CNN hai giai đoạn — D-RISE vượt trội hơn các baseline dựa trên gradient trên các thước đo đánh giá tiêu chuẩn. Phương pháp cũng làm lộ ra một số hành vi thú vị: các bộ phát hiện thường dựa vào ngữ cảnh bên ngoài hộp bao của một đối tượng, chẳng hạn như dùng gậy trượt tuyết để giúp nhận diện ván trượt, và có xu hướng tập trung vào các bộ phận phân biệt cụ thể thay vì toàn bộ đối tượng. Trong một thí nghiệm có kiểm soát, các nhà nghiên cứu đã cố ý đưa các thiên kiến nhân tạo vào dữ liệu huấn luyện và xác nhận rằng D-RISE có thể đáng tin cậy gắn cờ những thiên kiến đó trong mô hình kết quả. Vì phương pháp coi bộ phát hiện như một hộp đen không cần truy cập vào các trọng số hoặc gradient nội bộ, về nguyên tắc nó có thể được áp dụng cho bất kỳ hệ thống phát hiện nào, kể cả các hệ thống độc quyền.

tóm tắt

Chúng tôi đề xuất D-RISE, một phương pháp để tạo ra các giải thích trực quan cho các dự đoán của các bộ phát hiện đối tượng (object detector). Việc sử dụng thước đo tương đồng được đề xuất có tính đến cả khía cạnh định vị lẫn phân loại của phát hiện đối tượng cho phép phương pháp của chúng tôi tạo ra các bản đồ nổi bật (saliency map) cho thấy các vùng ảnh ảnh hưởng nhiều nhất đến dự đoán. D-RISE có thể được coi là "hộp đen" theo nghĩa kiểm thử phần mềm, vì nó chỉ cần truy cập vào đầu vào và đầu ra của một bộ phát hiện đối tượng. So với các phương pháp dựa trên gradient, D-RISE tổng quát hơn và bất khả tri (agnostic) đối với loại bộ phát hiện đối tượng cụ thể đang được kiểm tra, và không cần kiến thức về hoạt động bên trong của mô hình. Chúng tôi cho thấy rằng D-RISE có thể được áp dụng dễ dàng cho các bộ phát hiện đối tượng khác nhau bao gồm các bộ phát hiện một giai đoạn như YOLOv3 và các bộ phát hiện hai giai đoạn như Faster-RCNN. Chúng tôi trình bày một phân tích chi tiết về các giải thích trực quan được tạo ra để làm nổi bật việc sử dụng ngữ cảnh và các thiên kiến (bias) có thể có mà các bộ phát hiện đối tượng đã học được.

chi tiết

ghi chú: CVPR 2021 (oral). Project page https://cs-people.bu.edu/vpetsiuk/drise/

trích dẫn

@inproceedings{petsiuk2021black,
  title = {Black-box Explanation of Object Detectors via Saliency Maps},
  author = {Petsiuk, Vitali and Jain, Rajiv and Manjunatha, Varun and Morariu, Vlad I. and Mehra, Ashutosh and Ordonez, Vicente and Saenko, Kate},
  year = {2021},
  booktitle = {Conference on Computer Vision and Pattern Recognition CVPR 2021},
  url = {https://arxiv.org/abs/2006.03204},
}