Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan; Paola Cascante-Bonilla; Xiaoxiao Guo; Hui Wu; Song Feng; Vicente Ordonez

← назад к публикациям

publication

Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan, Paola Cascante-Bonilla, Xiaoxiao Guo, Hui Wu, Song Feng, Vicente Ordonez.

Conf. on Neural Information Processing Systems. NeurIPS 2019. Vancouver, Canada. December 2019.

статья code pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Virginia и IBM Research разработали систему под названием Drill-down, которая позволяет пользователям находить конкретные изображения путём ввода серии описаний на естественном языке, каждое из которых дополнительно сужает поиск, вместо того чтобы пытаться охватить всё в одном запросе. Проблема, которую они решали, знакома: существующие инструменты поиска изображений испытывают трудности, когда пользователь хочет найти очень конкретное фото сложной сцены, содержащей несколько объектов, поскольку втиснуть описание целой сцены в одно предложение и трудно, и неточно. Вместо того чтобы навязывать такой одношаговый подход, Drill-down позволяет пользователям начинать широко — скажем, «группа людей позирует в парке» — и постепенно добавлять более конкретные детали в несколько ходов, например «среди них есть невеста», при этом система обновляет свои результаты каждый раз. Ключевой технический вклад — это компактный набор векторов состояния, которые хранят и организуют историю запросов пользователя, причём каждый вектор учится отслеживать отдельную часть сцены, а не сворачивать всё в одно представление, как работали более ранние диалоговые системы поиска. Что важно, команда обнаружила, что может обучать модель без сбора дорогостоящих размеченных людьми сессий поиска, вместо этого используя существующие подписи к регионам изображений из набора данных Visual Genome в качестве дешёвой замены реальным пользовательским запросам. Тесты как на симулированных, так и на реальных пользователях-людях показали, что Drill-down превзошёл конкурирующие методы, при этом фактически используя меньше памяти и меньше параметров, и более 80 процентов тестировщиков-людей успешно нашли своё целевое изображение в течение пяти ходов. Работа показывает, что разбиение поиска изображений на разговорный обмен репликами является практичным путём к извлечению очень конкретных изображений в больших, разнообразных коллекциях.

аннотация

Эта статья исследует задачу интерактивного поиска изображений с использованием запросов на естественном языке, где пользователь постепенно предоставляет входные запросы для уточнения набора результатов поиска. Более того, наша работа исследует эту проблему в контексте сложных сцен изображений, содержащих несколько объектов. Мы предлагаем Drill-down — эффективную структуру для кодирования нескольких запросов с действенным компактным представлением состояния, которая существенно расширяет современные методы одноэтапного поиска изображений. Мы показываем, что использование нескольких раундов запросов на естественном языке в качестве входа может быть на удивление эффективным для нахождения сколь угодно конкретных изображений сложных сцен. Кроме того, мы обнаруживаем, что существующие наборы данных изображений с текстовыми подписями могут служить на удивление эффективной формой слабого надзора (weak supervision) для этой задачи. Мы сравниваем наш метод с существующими сетями последовательного кодирования и эмбеддинга, демонстрируя превосходную производительность на двух предложенных бенчмарках: автоматический поиск изображений в симулированном сценарии, использующем подписи к регионам в качестве запросов, и интерактивный поиск изображений с использованием реальных запросов от людей-оценщиков.

подробности

комментарий: 14 pages, 9 figures, NeurIPS 2019

цитирование

@inproceedings{tan2019drill,
  title = {Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries},
  author = {Tan, Fuwen and Cascante-Bonilla, Paola and Guo, Xiaoxiao and Wu, Hui and Feng, Song and Ordonez, Vicente},
  year = {2019},
  booktitle = {Conf. on Neural Information Processing Systems. NeurIPS 2019},
  url = {https://arxiv.org/abs/1911.03826},
}