Chat-crowd: A Dialog-based Platform for Visual Layout Composition
Краткое изложение пресс-релиза
Исследователи из University of Virginia и IBM создали инструмент сбора данных под названием Chat-crowd, который позволяет парам людей-работников воссоздавать визуальные компоновки через диалог в режиме обмена репликами с целью генерации обучающих данных для систем ИИ, которым нужно понимать пространственный язык. Схема назначает одному работнику роль "режиссёра", который может видеть эталонное изображение, содержащее фигуры или реальные объекты, а другому — роль "дизайнера", который манипулирует редактируемым холстом, опираясь только на текстовые инструкции режиссёра. Примечательное инженерное решение заключается в том, что двум работникам не нужно быть онлайн одновременно — разные люди могут взять на себя любую из ролей в середине разговора, что снижает стоимость и сложность краудсорсингового сбора данных. Система также внедряет синтетические сообщения от бота, чтобы провоцировать менее распространённые диалоговые ходы, такие как уточняющие вопросы, и использует эти внедрения для скрытой оценки качества работников. Тестируя платформу на простых компоновках геометрических фигур и расположениях объектов из набора изображений COCO, исследователи обнаружили, что режиссёры надёжно описывали объекты, используя расположение, цвет и форму, более чем в 90 процентах инструкций, тогда как дизайнеры задавали уточняющие вопросы лишь примерно в 40 процентах случаев и обычно просто напрямую изменяли холст. Более сложные сцены — те, что содержали от шести до восьми объектов, — требовали более чем вдвое больше диалоговых раундов для завершения, чем более простые, что подчёркивает, как сложность сцены увеличивает языковую нагрузку. Работа важна потому, что наборы данных, сочетающие естественный язык с пространственными рассуждениями, остаются дефицитными, а Chat-crowd предлагает практичный, масштабируемый способ их создания для обучения будущих систем ИИ, объединяющих зрение и язык.
аннотация
В этой статье мы представляем Chat-crowd — интерактивную среду для композиции визуальной компоновки посредством диалоговых взаимодействий. Chat-crowd поддерживает несколько агентов с двумя диалоговыми ролями: агенты, играющие роль дизайнера, отвечают за размещение объектов на редактируемом холсте в соответствии с инструкциями или командами, отдаваемыми агентами с ролью режиссёра. Систему можно интегрировать с краудсорсинговыми платформами для синхронного и асинхронного сбора данных, и она оснащена всесторонним контролем качества работы обоих типов агентов. Мы ожидаем, что эта система будет полезна для построения мультимодальных целеориентированных диалоговых задач, требующих пространственных и геометрических рассуждений.
цитирование
@inproceedings{cascantebonilla2019chat,
title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
year = {2019},
booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
url = {https://chatcrowd.github.io/},
}