Chat-crowd: A Dialog-based Platform for Visual Layout Composition
publication

Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla, Xuwang Yin, Vicente Ordonez, Song Feng.
North American Chapter of the Association for Computational Linguistics. NAACL 2019. System Demonstrations. Minneapolis, MN. June 2019.
Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Virginia и IBM создали инструмент сбора данных под названием Chat-crowd, который позволяет парам людей-работников воссоздавать визуальные компоновки через диалог в режиме обмена репликами с целью генерации обучающих данных для систем ИИ, которым нужно понимать пространственный язык. Схема назначает одному работнику роль "режиссёра", который может видеть эталонное изображение, содержащее фигуры или реальные объекты, а другому — роль "дизайнера", который манипулирует редактируемым холстом, опираясь только на текстовые инструкции режиссёра. Примечательное инженерное решение заключается в том, что двум работникам не нужно быть онлайн одновременно — разные люди могут взять на себя любую из ролей в середине разговора, что снижает стоимость и сложность краудсорсингового сбора данных. Система также внедряет синтетические сообщения от бота, чтобы провоцировать менее распространённые диалоговые ходы, такие как уточняющие вопросы, и использует эти внедрения для скрытой оценки качества работников. Тестируя платформу на простых компоновках геометрических фигур и расположениях объектов из набора изображений COCO, исследователи обнаружили, что режиссёры надёжно описывали объекты, используя расположение, цвет и форму, более чем в 90 процентах инструкций, тогда как дизайнеры задавали уточняющие вопросы лишь примерно в 40 процентах случаев и обычно просто напрямую изменяли холст. Более сложные сцены — те, что содержали от шести до восьми объектов, — требовали более чем вдвое больше диалоговых раундов для завершения, чем более простые, что подчёркивает, как сложность сцены увеличивает языковую нагрузку. Работа важна потому, что наборы данных, сочетающие естественный язык с пространственными рассуждениями, остаются дефицитными, а Chat-crowd предлагает практичный, масштабируемый способ их создания для обучения будущих систем ИИ, объединяющих зрение и язык.

аннотация

В этой статье мы представляем Chat-crowd — интерактивную среду для композиции визуальной компоновки посредством диалоговых взаимодействий. Chat-crowd поддерживает несколько агентов с двумя диалоговыми ролями: агенты, играющие роль дизайнера, отвечают за размещение объектов на редактируемом холсте в соответствии с инструкциями или командами, отдаваемыми агентами с ролью режиссёра. Систему можно интегрировать с краудсорсинговыми платформами для синхронного и асинхронного сбора данных, и она оснащена всесторонним контролем качества работы обоих типов агентов. Мы ожидаем, что эта система будет полезна для построения мультимодальных целеориентированных диалоговых задач, требующих пространственных и геометрических рассуждений.

цитирование

@inproceedings{cascantebonilla2019chat,
  title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
  author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
  year = {2019},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
  url = {https://chatcrowd.github.io/},
}