Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan; Paola Cascante-Bonilla; Xiaoxiao Guo; Hui Wu; Song Feng; Vicente Ordonez

← quay lại danh sách công bố

publication

Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan, Paola Cascante-Bonilla, Xiaoxiao Guo, Hui Wu, Song Feng, Vicente Ordonez.

Conf. on Neural Information Processing Systems. NeurIPS 2019. Vancouver, Canada. December 2019.

bài báo code pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại University of Virginia và IBM Research đã phát triển một hệ thống gọi là Drill-down, cho phép người dùng tìm ra các ảnh cụ thể bằng cách gõ một loạt các mô tả ngôn ngữ tự nhiên, mỗi mô tả thu hẹp tìm kiếm hơn nữa thay vì cố gắng nắm bắt mọi thứ trong một truy vấn duy nhất. Vấn đề mà họ giải quyết là một vấn đề quen thuộc: các công cụ tìm kiếm ảnh hiện có gặp khó khăn khi một người dùng muốn định vị một bức ảnh rất cụ thể của một cảnh phức tạp chứa nhiều đối tượng, vì việc nhồi nhét toàn bộ một mô tả cảnh vào một câu vừa khó vừa thiếu chính xác. Thay vì ép buộc cách tiếp cận một-lượt đó, Drill-down cho phép người dùng bắt đầu rộng — chẳng hạn, "một nhóm người đang tạo dáng trong một công viên" — và dần dần thêm các chi tiết cụ thể hơn qua vài lượt, chẳng hạn như "có một cô dâu trong số họ", với hệ thống cập nhật các kết quả của nó mỗi lần. Đóng góp kỹ thuật then chốt là một tập gọn nhẹ các vectơ trạng thái lưu trữ và tổ chức lịch sử các truy vấn của một người dùng, với mỗi vectơ học cách theo dõi một phần riêng biệt của cảnh thay vì gộp mọi thứ vào một biểu diễn, đó là cách các hệ thống truy hồi dựa trên hội thoại trước đây hoạt động. Quan trọng là, nhóm phát hiện ra họ có thể huấn luyện mô hình mà không cần thu thập các phiên tìm kiếm được chú thích thủ công đắt đỏ, thay vào đó sử dụng các chú thích vùng ảnh hiện có từ bộ dữ liệu Visual Genome như một sự thay thế rẻ tiền cho các truy vấn thực của người dùng. Các thử nghiệm trên cả người dùng mô phỏng lẫn người dùng thực cho thấy Drill-down vượt trội hơn các phương pháp cạnh tranh trong khi thực sự sử dụng ít bộ nhớ hơn và ít tham số hơn, và hơn 80 phần trăm những người thử nghiệm là con người đã định vị thành công ảnh mục tiêu của họ trong vòng năm lượt. Công trình gợi ý rằng việc chia tìm kiếm ảnh thành một sự qua lại mang tính hội thoại là một con đường thực tiễn để truy hồi các ảnh có độ cụ thể cao trong các bộ sưu tập lớn và đa dạng.

tóm tắt

Bài báo này khám phá tác vụ truy hồi ảnh tương tác bằng các truy vấn ngôn ngữ tự nhiên, trong đó một người dùng dần dần cung cấp các truy vấn đầu vào để tinh chỉnh một tập kết quả truy hồi. Hơn nữa, công trình của chúng tôi khám phá vấn đề này trong bối cảnh các cảnh ảnh phức tạp chứa nhiều đối tượng. Chúng tôi đề xuất Drill-down, một khung làm việc hiệu quả để mã hóa nhiều truy vấn bằng một biểu diễn trạng thái gọn nhẹ hiệu quả, mở rộng đáng kể các phương pháp hiện tại cho truy hồi ảnh một-lượt. Chúng tôi cho thấy rằng việc sử dụng nhiều lượt truy vấn ngôn ngữ tự nhiên làm đầu vào có thể hiệu quả một cách đáng ngạc nhiên trong việc tìm ra các ảnh cụ thể tùy ý của các cảnh phức tạp. Hơn nữa, chúng tôi phát hiện ra rằng các bộ dữ liệu ảnh hiện có với các chú thích văn bản có thể cung cấp một dạng giám sát yếu hiệu quả một cách đáng ngạc nhiên cho tác vụ này. Chúng tôi so sánh phương pháp của mình với các mạng mã hóa tuần tự và embedding hiện có, chứng minh hiệu năng vượt trội trên hai benchmark được đề xuất: truy hồi ảnh tự động trên một kịch bản mô phỏng sử dụng các chú thích vùng làm truy vấn, và truy hồi ảnh tương tác sử dụng các truy vấn thực từ những người đánh giá là con người.

chi tiết

ghi chú: 14 pages, 9 figures, NeurIPS 2019

trích dẫn

@inproceedings{tan2019drill,
  title = {Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries},
  author = {Tan, Fuwen and Cascante-Bonilla, Paola and Guo, Xiaoxiao and Wu, Hui and Feng, Song and Ordonez, Vicente},
  year = {2019},
  booktitle = {Conf. on Neural Information Processing Systems. NeurIPS 2019},
  url = {https://arxiv.org/abs/1911.03826},
}