Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries
publication

Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan, Paola Cascante-Bonilla, Xiaoxiao Guo, Hui Wu, Song Feng, Vicente Ordonez.
Conf. on Neural Information Processing Systems. NeurIPS 2019. Vancouver, Canada. December 2019.
Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Virginia и IBM Research разработали систему под названием Drill-down, которая позволяет пользователям находить конкретные изображения путём ввода серии описаний на естественном языке, каждое из которых дополнительно сужает поиск, вместо того чтобы пытаться охватить всё в одном запросе. Проблема, которую они решали, знакома: существующие инструменты поиска изображений испытывают трудности, когда пользователь хочет найти очень конкретное фото сложной сцены, содержащей несколько объектов, поскольку втиснуть описание целой сцены в одно предложение и трудно, и неточно. Вместо того чтобы навязывать такой одношаговый подход, Drill-down позволяет пользователям начинать широко — скажем, «группа людей позирует в парке» — и постепенно добавлять более конкретные детали в несколько ходов, например «среди них есть невеста», при этом система обновляет свои результаты каждый раз. Ключевой технический вклад — это компактный набор векторов состояния, которые хранят и организуют историю запросов пользователя, причём каждый вектор учится отслеживать отдельную часть сцены, а не сворачивать всё в одно представление, как работали более ранние диалоговые системы поиска. Что важно, команда обнаружила, что может обучать модель без сбора дорогостоящих размеченных людьми сессий поиска, вместо этого используя существующие подписи к регионам изображений из набора данных Visual Genome в качестве дешёвой замены реальным пользовательским запросам. Тесты как на симулированных, так и на реальных пользователях-людях показали, что Drill-down превзошёл конкурирующие методы, при этом фактически используя меньше памяти и меньше параметров, и более 80 процентов тестировщиков-людей успешно нашли своё целевое изображение в течение пяти ходов. Работа показывает, что разбиение поиска изображений на разговорный обмен репликами является практичным путём к извлечению очень конкретных изображений в больших, разнообразных коллекциях.

аннотация

Эта статья исследует задачу интерактивного поиска изображений с использованием запросов на естественном языке, где пользователь постепенно предоставляет входные запросы для уточнения набора результатов поиска. Более того, наша работа исследует эту проблему в контексте сложных сцен изображений, содержащих несколько объектов. Мы предлагаем Drill-down — эффективную структуру для кодирования нескольких запросов с действенным компактным представлением состояния, которая существенно расширяет современные методы одноэтапного поиска изображений. Мы показываем, что использование нескольких раундов запросов на естественном языке в качестве входа может быть на удивление эффективным для нахождения сколь угодно конкретных изображений сложных сцен. Кроме того, мы обнаруживаем, что существующие наборы данных изображений с текстовыми подписями могут служить на удивление эффективной формой слабого надзора (weak supervision) для этой задачи. Мы сравниваем наш метод с существующими сетями последовательного кодирования и эмбеддинга, демонстрируя превосходную производительность на двух предложенных бенчмарках: автоматический поиск изображений в симулированном сценарии, использующем подписи к регионам в качестве запросов, и интерактивный поиск изображений с использованием реальных запросов от людей-оценщиков.

подробности

комментарий
14 pages, 9 figures, NeurIPS 2019

цитирование

@inproceedings{tan2019drill,
  title = {Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries},
  author = {Tan, Fuwen and Cascante-Bonilla, Paola and Guo, Xiaoxiao and Wu, Hui and Feng, Song and Ordonez, Vicente},
  year = {2019},
  booktitle = {Conf. on Neural Information Processing Systems. NeurIPS 2019},
  url = {https://arxiv.org/abs/1911.03826},
}