Obj2Text: Generating Visually Descriptive Language from Object Layouts

Xuwang Yin; Vicente Ordonez

← назад к публикациям

publication

Obj2Text: Generating Visually Descriptive Language from Object Layouts

Xuwang Yin, Vicente Ordonez.

Empirical Methods in Natural Language Processing. EMNLP 2017. Copenhagen, Denmark. September 2017.

статья pdf code исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Virginia построили систему, которая может автоматически писать подписи, описывающие сцену, используя не более чем список объектов и их позиций на изображении, обходя необходимость в исходных пиксельных данных. Система под названием OBJ2TEXT работает, подавая метки объектов и координаты их ограничивающих рамок в одну нейронную сеть, которая кодирует компоновку как последовательность, а затем передавая это закодированное представление во вторую нейронную сеть, которая генерирует предложение слово за словом. Тестируя на стандартном наборе данных изображений MS-COCO, команда обнаружила, что расположение объектов и их количество оба значимо улучшали качество подписей — удаление любого из них вызывало измеримое падение качества — демонстрируя, что даже последовательное кодирование пространственной информации несёт реальную описательную ценность. Возможно, более практично то, что когда исследователи объединили OBJ2TEXT с детектором объектов под названием YOLO и обычной моделью подписывания на основе изображений, гибридная система превзошла базовую модель подписывания только по изображению, подняв её показатель CIDEr с 0.863 до 0.950 на бенчмарке MS-COCO; люди-оценщики также предпочитали подписи объединённой системы примерно в 65 процентах случаев, когда они все соглашались. Работа важна тем, что показывает: структурированная символическая информация о сцене — та, что производится детекторами объектов или используется в графическом дизайне и раскадровке — может дополнять или даже частично замещать пиксельные визуальные признаки в генерации языка, предлагая более чистый способ изучения того, что моделям подписывания изображений на самом деле нужно знать о сцене.

аннотация

Генерация подписей к изображениям — это задача, которая в последнее время получила значительное внимание. В этой работе мы фокусируемся на генерации подписей для абстрактных сцен, или компоновок объектов, где единственная предоставленная информация — это набор объектов и их расположений. Мы предлагаем OBJ2TEXT — модель sequence-to-sequence, которая кодирует набор объектов и их расположений как входную последовательность с помощью сети LSTM и декодирует это представление с помощью языковой модели LSTM. Мы показываем, что наша модель, несмотря на кодирование компоновок объектов как последовательности, способна представлять пространственные отношения между объектами и генерировать описания, которые глобально связны и семантически релевантны. Мы тестируем наш подход в задаче подписывания компоновки объектов, используя в качестве входных данных только аннотации объектов. Дополнительно мы показываем, что наша модель в сочетании с детектором объектов современного уровня улучшает модель подписывания изображений с 0.863 до 0.950 (по метрике CIDEr) на тестовом бенчмарке стандартной задачи MS-COCO Captioning.

подробности

комментарий: Accepted at EMNLP 2017

цитирование

@inproceedings{yin2017obj,
  title = {Obj2Text: Generating Visually Descriptive Language from Object Layouts},
  author = {Yin, Xuwang and Ordonez, Vicente},
  year = {2017},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2017},
  url = {https://arxiv.org/abs/1707.07102},
}