Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries
publication

Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan, Paola Cascante-Bonilla, Xiaoxiao Guo, Hui Wu, Song Feng, Vicente Ordonez.
Conf. on Neural Information Processing Systems. NeurIPS 2019. Vancouver, Canada. December 2019.
연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

버지니아 대학교와 IBM Research의 연구진은 사용자가 일련의 자연어 설명을 입력하여 특정 이미지를 찾을 수 있게 하는 Drill-down이라는 시스템을 개발했는데, 각 설명은 모든 것을 단일 질의에 담으려 하기보다는 검색을 더 좁혀 나간다. 연구진이 다룬 문제는 익숙한 것이다: 기존 이미지 검색 도구는 사용자가 다수의 객체를 포함하는 복잡한 장면의 매우 특정한 사진을 찾으려 할 때 어려움을 겪는데, 전체 장면 설명을 한 문장에 욱여넣는 것은 어렵고 부정확하기 때문이다. 그러한 단발성 접근을 강요하는 대신, Drill-down은 사용자가 "공원에서 포즈를 취하는 한 무리의 사람들"처럼 넓게 시작하여, 여러 차례에 걸쳐 "그들 중에 신부가 있다"와 같이 점진적으로 더 구체적인 세부 사항을 추가할 수 있게 하며, 시스템은 매번 결과를 갱신한다. 핵심적인 기술적 기여는 사용자 질의 이력을 저장하고 조직하는 간결한 상태 벡터 집합으로, 각 벡터는 모든 것을 하나의 표현으로 뭉개기보다는 장면의 서로 구별되는 부분을 추적하도록 학습하는데, 이는 이전의 대화 기반 검색 시스템이 작동하던 방식과 다르다. 결정적으로, 연구팀은 비용이 큰 인간 주석 검색 세션을 수집하지 않고도, 대신 Visual Genome 데이터셋의 기존 이미지 영역 캡션을 실제 사용자 질의의 저렴한 대체물로 사용하여 모델을 학습시킬 수 있음을 발견했다. 모의 사용자와 실제 인간 사용자 모두에 대한 테스트에서 Drill-down은 실제로 더 적은 메모리와 더 적은 파라미터를 사용하면서도 경쟁 방법을 능가했으며, 인간 테스터의 80% 이상이 다섯 차례 안에 목표 이미지를 성공적으로 찾아냈다. 이 연구는 이미지 검색을 대화식 주고받기로 나누는 것이 크고 다양한 컬렉션에서 매우 특정한 이미지를 검색하는 실용적인 경로임을 시사한다.

초록

본 논문은 사용자가 검색 결과 집합을 점진적으로 정제하기 위해 입력 질의를 제공하는, 자연어 질의를 사용한 대화형 이미지 검색 작업을 탐구한다. 또한 우리의 연구는 다수의 객체를 포함하는 복잡한 이미지 장면의 맥락에서 이 문제를 탐구한다. 우리는 단일 라운드 이미지 검색을 위한 현재 방법을 크게 확장하는, 효율적이고 간결한 상태 표현으로 다수의 질의를 인코딩하는 효과적인 프레임워크인 Drill-down을 제안한다. 우리는 다수 라운드의 자연어 질의를 입력으로 사용하는 것이 복잡한 장면의 임의로 특정한 이미지를 찾는 데 놀라울 정도로 효과적일 수 있음을 보인다. 더 나아가, 우리는 텍스트 캡션이 있는 기존 이미지 데이터셋이 이 작업에 놀라울 정도로 효과적인 형태의 약지도를 제공할 수 있음을 발견한다. 우리는 우리 방법을 기존의 순차 인코딩 및 임베딩 네트워크와 비교하여, 제안된 두 가지 벤치마크, 즉 영역 캡션을 질의로 사용하는 모의 시나리오에서의 자동 이미지 검색과 인간 평가자의 실제 질의를 사용한 대화형 이미지 검색에서 우수한 성능을 입증한다.

세부 정보

비고
14 pages, 9 figures, NeurIPS 2019

인용

@inproceedings{tan2019drill,
  title = {Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries},
  author = {Tan, Fuwen and Cascante-Bonilla, Paola and Guo, Xiaoxiao and Wu, Hui and Feng, Song and Ordonez, Vicente},
  year = {2019},
  booktitle = {Conf. on Neural Information Processing Systems. NeurIPS 2019},
  url = {https://arxiv.org/abs/1911.03826},
}