Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan; Paola Cascante-Bonilla; Xiaoxiao Guo; Hui Wu; Song Feng; Vicente Ordonez

← 논문 목록으로 돌아가기

publication

Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan, Paola Cascante-Bonilla, Xiaoxiao Guo, Hui Wu, Song Feng, Vicente Ordonez.

Conf. on Neural Information Processing Systems. NeurIPS 2019. Vancouver, Canada. December 2019.

논문 code pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

버지니아 대학교와 IBM Research의 연구진은 사용자가 일련의 자연어 설명을 입력하여 특정 이미지를 찾을 수 있게 하는 Drill-down이라는 시스템을 개발했는데, 각 설명은 모든 것을 단일 질의에 담으려 하기보다는 검색을 더 좁혀 나간다. 연구진이 다룬 문제는 익숙한 것이다: 기존 이미지 검색 도구는 사용자가 다수의 객체를 포함하는 복잡한 장면의 매우 특정한 사진을 찾으려 할 때 어려움을 겪는데, 전체 장면 설명을 한 문장에 욱여넣는 것은 어렵고 부정확하기 때문이다. 그러한 단발성 접근을 강요하는 대신, Drill-down은 사용자가 "공원에서 포즈를 취하는 한 무리의 사람들"처럼 넓게 시작하여, 여러 차례에 걸쳐 "그들 중에 신부가 있다"와 같이 점진적으로 더 구체적인 세부 사항을 추가할 수 있게 하며, 시스템은 매번 결과를 갱신한다. 핵심적인 기술적 기여는 사용자 질의 이력을 저장하고 조직하는 간결한 상태 벡터 집합으로, 각 벡터는 모든 것을 하나의 표현으로 뭉개기보다는 장면의 서로 구별되는 부분을 추적하도록 학습하는데, 이는 이전의 대화 기반 검색 시스템이 작동하던 방식과 다르다. 결정적으로, 연구팀은 비용이 큰 인간 주석 검색 세션을 수집하지 않고도, 대신 Visual Genome 데이터셋의 기존 이미지 영역 캡션을 실제 사용자 질의의 저렴한 대체물로 사용하여 모델을 학습시킬 수 있음을 발견했다. 모의 사용자와 실제 인간 사용자 모두에 대한 테스트에서 Drill-down은 실제로 더 적은 메모리와 더 적은 파라미터를 사용하면서도 경쟁 방법을 능가했으며, 인간 테스터의 80% 이상이 다섯 차례 안에 목표 이미지를 성공적으로 찾아냈다. 이 연구는 이미지 검색을 대화식 주고받기로 나누는 것이 크고 다양한 컬렉션에서 매우 특정한 이미지를 검색하는 실용적인 경로임을 시사한다.

초록

본 논문은 사용자가 검색 결과 집합을 점진적으로 정제하기 위해 입력 질의를 제공하는, 자연어 질의를 사용한 대화형 이미지 검색 작업을 탐구한다. 또한 우리의 연구는 다수의 객체를 포함하는 복잡한 이미지 장면의 맥락에서 이 문제를 탐구한다. 우리는 단일 라운드 이미지 검색을 위한 현재 방법을 크게 확장하는, 효율적이고 간결한 상태 표현으로 다수의 질의를 인코딩하는 효과적인 프레임워크인 Drill-down을 제안한다. 우리는 다수 라운드의 자연어 질의를 입력으로 사용하는 것이 복잡한 장면의 임의로 특정한 이미지를 찾는 데 놀라울 정도로 효과적일 수 있음을 보인다. 더 나아가, 우리는 텍스트 캡션이 있는 기존 이미지 데이터셋이 이 작업에 놀라울 정도로 효과적인 형태의 약지도를 제공할 수 있음을 발견한다. 우리는 우리 방법을 기존의 순차 인코딩 및 임베딩 네트워크와 비교하여, 제안된 두 가지 벤치마크, 즉 영역 캡션을 질의로 사용하는 모의 시나리오에서의 자동 이미지 검색과 인간 평가자의 실제 질의를 사용한 대화형 이미지 검색에서 우수한 성능을 입증한다.

세부 정보

비고: 14 pages, 9 figures, NeurIPS 2019

인용

@inproceedings{tan2019drill,
  title = {Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries},
  author = {Tan, Fuwen and Cascante-Bonilla, Paola and Guo, Xiaoxiao and Wu, Hui and Feng, Song and Ordonez, Vicente},
  year = {2019},
  booktitle = {Conf. on Neural Information Processing Systems. NeurIPS 2019},
  url = {https://arxiv.org/abs/1911.03826},
}