Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval
publication

Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval

Shanmin Pang, Jin Ma, Jianru Xue, Jihua Zhu, Vicente Ordonez.
IEEE Transactions on Multimedia 2019 (Journal).
Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại Xi'an Jiaotong University và University of Virginia đã phát triển một hệ thống tìm kiếm ảnh mới mượn một khái niệm từ vật lý — khuếch tán nhiệt — để làm cho các công cụ tìm kiếm thị giác chính xác và hiệu quả hơn. Vấn đề cốt lõi mà họ giải quyết là các hệ thống truy hồi ảnh tiêu chuẩn có thể bị đánh lạc hướng bởi các mẫu thị giác lặp lại, chẳng hạn các hàng cửa sổ giống hệt nhau trên mặt tiền của một tòa nhà, vốn làm ngập hệ thống bằng thông tin dư thừa và khiến việc xác định điều gì thực sự đặc trưng cho một ảnh trở nên khó khăn hơn. Để khắc phục điều này, nhóm đã coi mỗi đặc trưng cục bộ được trích xuất từ một mạng nơ-ron tích chập như một nguồn nhiệt, rồi dùng toán học của khuếch tán nhiệt để đo mức độ "bùng nổ" hoặc lặp lại của đặc trưng đó — các đặc trưng lan tỏa nhiệt rộng rãi qua một mạng các láng giềng tương tự được gắn cờ là dư thừa, trong khi các đặc trưng cô lập tạo ra ít truyền nhiệt được coi là đặc trưng hơn. Hệ thống sau đó gán trọng số cho các đặc trưng tương ứng trước khi kết hợp chúng thành một bộ mô tả ảnh gọn nhẹ duy nhất. Nguyên lý khuếch tán nhiệt tương tự cũng được áp dụng ở cấp độ ảnh, nơi một ảnh truy vấn đóng vai trò là nguồn nhiệt và sự ấm áp mà nó lan tỏa đến các ảnh cơ sở dữ liệu ứng viên được dùng để xếp hạng lại các kết quả tìm kiếm. Khi kiểm tra trên các benchmark tiêu chuẩn bao gồm các bộ dữ liệu Oxford Buildings và Paris, cách tiếp cận đã vượt trội các phương pháp cạnh tranh, trong một số trường hợp cải thiện độ chính xác truy hồi hơn năm điểm phần trăm trên các bộ dữ liệu quy mô lớn, trong khi vẫn chạy đủ nhanh để sử dụng thực tế — tất cả mà không cần bất kỳ dữ liệu huấn luyện được gán nhãn bổ sung nào.

tóm tắt

Truy hồi ảnh dựa trên các đặc trưng tích chập sâu đã chứng minh hiệu năng tốt nhất hiện nay trong các benchmark phổ biến. Trong bài báo này, chúng tôi trình bày một giải pháp thống nhất để giải quyết việc tổng hợp đặc trưng tích chập sâu và việc xếp hạng lại ảnh bằng cách mô phỏng động lực học của khuếch tán nhiệt. Một vấn đề đặc trưng trong truy hồi ảnh là các đặc trưng lặp lại hoặc \emph{bùng nổ} có xu hướng chi phối các biểu diễn ảnh cuối cùng, dẫn đến các biểu diễn ít phân biệt được hơn. Chúng tôi cho thấy rằng bằng cách coi mỗi đặc trưng sâu như một nguồn nhiệt, phương pháp tổng hợp không giám sát của chúng tôi có thể tránh việc biểu diễn quá mức các đặc trưng \emph{bùng nổ}. Chúng tôi cũng cung cấp một giải pháp thực tế cho phương pháp tổng hợp được đề xuất và hơn nữa cho thấy hiệu suất của phương pháp của chúng tôi trong đánh giá thực nghiệm. Lấy cảm hứng từ phương pháp tổng hợp đặc trưng sâu nói trên, chúng tôi cũng đề xuất một phương pháp để xếp hạng lại một số ảnh được xếp hạng cao nhất cho một ảnh truy vấn cho trước bằng cách coi truy vấn như nguồn nhiệt. Cuối cùng, chúng tôi đánh giá sâu rộng cách tiếp cận được đề xuất với các mạng sâu được tiền huấn luyện và được tinh chỉnh trên các benchmark công khai phổ biến và cho thấy hiệu năng vượt trội so với công trình trước đây.

chi tiết

ghi chú
The paper has been accepted to IEEE Transactions on Multimedia

trích dẫn

@article{pang2019deep,
  title = {Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval},
  author = {Pang, Shanmin and Ma, Jin and Xue, Jianru and Zhu, Jihua and Ordonez, Vicente},
  year = {2019},
  journal = {IEEE Transactions on Multimedia 2019 (Journal).},
  url = {https://arxiv.org/abs/1805.08587},
}