Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla; Xuwang Yin; Vicente Ordonez; Song Feng

publication

Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla, Xuwang Yin, Vicente Ordonez, Song Feng.

North American Chapter of the Association for Computational Linguistics. NAACL 2019. System Demonstrations. Minneapolis, MN. June 2019.

статья arxiv code pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Virginia и IBM создали инструмент сбора данных под названием Chat-crowd, который позволяет парам людей-работников воссоздавать визуальные компоновки через диалог в режиме обмена репликами с целью генерации обучающих данных для систем ИИ, которым нужно понимать пространственный язык. Схема назначает одному работнику роль "режиссёра", который может видеть эталонное изображение, содержащее фигуры или реальные объекты, а другому — роль "дизайнера", который манипулирует редактируемым холстом, опираясь только на текстовые инструкции режиссёра. Примечательное инженерное решение заключается в том, что двум работникам не нужно быть онлайн одновременно — разные люди могут взять на себя любую из ролей в середине разговора, что снижает стоимость и сложность краудсорсингового сбора данных. Система также внедряет синтетические сообщения от бота, чтобы провоцировать менее распространённые диалоговые ходы, такие как уточняющие вопросы, и использует эти внедрения для скрытой оценки качества работников. Тестируя платформу на простых компоновках геометрических фигур и расположениях объектов из набора изображений COCO, исследователи обнаружили, что режиссёры надёжно описывали объекты, используя расположение, цвет и форму, более чем в 90 процентах инструкций, тогда как дизайнеры задавали уточняющие вопросы лишь примерно в 40 процентах случаев и обычно просто напрямую изменяли холст. Более сложные сцены — те, что содержали от шести до восьми объектов, — требовали более чем вдвое больше диалоговых раундов для завершения, чем более простые, что подчёркивает, как сложность сцены увеличивает языковую нагрузку. Работа важна потому, что наборы данных, сочетающие естественный язык с пространственными рассуждениями, остаются дефицитными, а Chat-crowd предлагает практичный, масштабируемый способ их создания для обучения будущих систем ИИ, объединяющих зрение и язык.

аннотация

В этой статье мы представляем Chat-crowd — интерактивную среду для композиции визуальной компоновки посредством диалоговых взаимодействий. Chat-crowd поддерживает несколько агентов с двумя диалоговыми ролями: агенты, играющие роль дизайнера, отвечают за размещение объектов на редактируемом холсте в соответствии с инструкциями или командами, отдаваемыми агентами с ролью режиссёра. Систему можно интегрировать с краудсорсинговыми платформами для синхронного и асинхронного сбора данных, и она оснащена всесторонним контролем качества работы обоих типов агентов. Мы ожидаем, что эта система будет полезна для построения мультимодальных целеориентированных диалоговых задач, требующих пространственных и геометрических рассуждений.

цитирование

@inproceedings{cascantebonilla2019chat,
  title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
  author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
  year = {2019},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
  url = {https://chatcrowd.github.io/},
}