Feedback-prop: Convolutional Neural Network Inference under Partial Evidence
publication

Feedback-prop: Convolutional Neural Network Inference under Partial Evidence

Tianlu Wang, Kota Yamaguchi, Vicente Ordonez.
Conference on Computer Vision and Pattern Recognition. CVPR 2018. Salt Lake City, Utah. June 2018.
Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu từ University of Virginia và CyberAgent đã phát triển một kỹ thuật cho phép các mạng nơ-ron nhận dạng ảnh hiện có đưa ra các dự đoán tốt hơn khi đã biết trước một số thông tin về một bức ảnh. Phương pháp, gọi là feedback-prop, giải quyết một khoảng cách giữa cách các hệ thống thị giác máy tính thường được kiểm tra — chỉ sử dụng đầu vào thị giác — và cách chúng thường được sử dụng trong thực tế, nơi văn bản xung quanh, dữ liệu GPS, thẻ (tag) của người dùng, hoặc các manh mối ngữ cảnh khác thường có sẵn. Thay vì huấn luyện lại một mạng để tích hợp thông tin bổ sung đó, các nhà nghiên cứu nhận thấy họ có thể đưa các nhãn đã biết ngược trở lại qua một mạng đã huấn luyện ngay trong chính bước suy luận, điều chỉnh các kích hoạt nội tại của mạng cho đến khi các dự đoán cho các nhãn chưa biết còn lại được cải thiện. Họ đã thử nghiệm hai biến thể của cách tiếp cận — một biến thể cập nhật các lớp một cách tuần tự và một biến thể đưa các biến hiệu chỉnh nhỏ vào nhiều lớp đồng thời — trên một số tác vụ, bao gồm nhận dạng đối tượng trong ảnh khi đã biết một số nhãn, dự đoán các danh mục cảnh chi tiết khi đã cho các danh mục thô, và sinh chú thích ảnh khi có sẵn các chú thích đối tượng. Trên tất cả các tác vụ và nhiều kiến trúc mạng tiêu chuẩn bao gồm VGG-16 và ResNet, việc thêm bằng chứng từng phần luôn cải thiện độ chính xác, với mức tăng tương đối dao động từ khoảng 10 đến 13 phần trăm tùy thuộc vào tác vụ. Đáng chú ý, kỹ thuật này không đòi hỏi bất kỳ thay đổi nào đối với việc huấn luyện mô hình gốc và hoạt động với một sự pha trộn tùy ý các nhãn đã biết và chưa biết, khiến nó trở nên thực tế rộng rãi cho các kịch bản triển khai thực tế nơi các ảnh hiếm khi đến mà không kèm theo bất kỳ ngữ cảnh nào.

tóm tắt

Chúng tôi đề xuất một quy trình suy luận cho các mạng nơ-ron tích chập sâu (CNN) khi có sẵn bằng chứng từng phần. Phương pháp của chúng tôi bao gồm một cách tiếp cận lan truyền dựa trên phản hồi tổng quát (feedback-prop) nhằm tăng cường độ chính xác dự đoán cho một tập tùy ý các nhãn mục tiêu chưa biết khi giá trị của một tập tùy ý không chồng lấp các nhãn mục tiêu khác đã biết. Chúng tôi cho thấy rằng các mô hình hiện có được huấn luyện trong một thiết lập đa nhãn hoặc đa nhiệm có thể dễ dàng tận dụng feedback-prop mà không cần bất kỳ việc huấn luyện lại hay tinh chỉnh nào. Quy trình suy luận feedback-prop của chúng tôi mang tính tổng quát, đơn giản, đáng tin cậy, và hoạt động trên các tác vụ nhận dạng thị giác đầy thách thức khác nhau. Chúng tôi trình bày hai biến thể của feedback-prop dựa trên các cập nhật lặp theo từng lớp và theo phần dư (residual). Chúng tôi thí nghiệm bằng cách sử dụng một số mô hình đa nhiệm và cho thấy rằng feedback-prop hiệu quả ở tất cả các mô hình đó. Kết quả của chúng tôi hé lộ một thuộc tính động thú vị nhưng chưa từng được báo cáo trước đây của các CNN sâu. Chúng tôi cũng trình bày một cách tiếp cận kỹ thuật liên quan tận dụng thuộc tính này cho việc suy luận dưới bằng chứng từng phần trong các tác vụ nhận dạng thị giác tổng quát.

chi tiết

ghi chú
Accepted to CVPR 2018

trích dẫn

@inproceedings{wang2018feedback,
  title = {Feedback-prop: Convolutional Neural Network Inference under Partial Evidence},
  author = {Wang, Tianlu and Yamaguchi, Kota and Ordonez, Vicente},
  year = {2018},
  booktitle = {Conference on Computer Vision and Pattern Recognition. CVPR 2018},
  url = {https://arxiv.org/abs/1710.08049},
}