Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla; Xuwang Yin; Vicente Ordonez; Song Feng

publication

Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla, Xuwang Yin, Vicente Ordonez, Song Feng.

North American Chapter of the Association for Computational Linguistics. NAACL 2019. System Demonstrations. Minneapolis, MN. June 2019.

artículo arxiv code pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad de Virginia e IBM han construido una herramienta de recopilación de datos llamada Chat-crowd que permite a parejas de trabajadores humanos reconstruir diseños visuales mediante conversación de ida y vuelta, con el objetivo de generar datos de entrenamiento para sistemas de IA que necesitan comprender el lenguaje espacial. La configuración asigna a un trabajador el rol de «director», que puede ver una imagen de referencia que contiene formas u objetos del mundo real, y a otro el de «diseñador», que manipula un lienzo editable basándose únicamente en las instrucciones de texto del director. Una decisión de ingeniería notable es que los dos trabajadores no necesitan estar en línea simultáneamente: distintas personas pueden asumir cualquiera de los roles a mitad de una conversación, lo que reduce el costo y la complejidad de la recopilación de datos por crowdsourcing. El sistema también inyecta mensajes sintéticos de un bot para provocar movimientos conversacionales menos comunes, como preguntas de aclaración, y usa esas inyecciones para evaluar discretamente la calidad de los trabajadores. Al probar la plataforma con diseños sencillos de formas geométricas y disposiciones de objetos del conjunto de datos de imágenes COCO, los investigadores hallaron que los directores describían de forma fiable los objetos usando ubicación, color y forma en más del 90 por ciento de las instrucciones, mientras que los diseñadores formulaban preguntas de aclaración solo alrededor del 40 por ciento de las veces y normalmente se limitaban a modificar el lienzo directamente. Las escenas más complejas —aquellas con seis a ocho objetos— requirieron más del doble de rondas conversacionales para completarse que las más simples, lo que pone de relieve cómo la complejidad de la escena impulsa la demanda de lenguaje. El trabajo es importante porque los conjuntos de datos que emparejan lenguaje natural con razonamiento espacial siguen siendo escasos, y Chat-crowd ofrece una forma práctica y escalable de producirlos para entrenar futuros sistemas de IA de visión y lenguaje.

resumen

En este artículo presentamos Chat-crowd, un entorno interactivo para la composición de diseños visuales mediante interacciones conversacionales. Chat-crowd admite múltiples agentes con dos roles conversacionales: los agentes que desempeñan el papel de diseñador se encargan de colocar objetos en un lienzo editable según las instrucciones o comandos emitidos por los agentes con el rol de director. El sistema puede integrarse con plataformas de crowdsourcing para la recopilación de datos tanto sincrónica como asincrónica y está equipado con controles de calidad exhaustivos sobre el desempeño de ambos tipos de agentes. Esperamos que este sistema resulte útil para construir tareas de diálogo multimodal orientadas a objetivos que requieran razonamiento espacial y geométrico.

cita

@inproceedings{cascantebonilla2019chat,
  title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
  author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
  year = {2019},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
  url = {https://chatcrowd.github.io/},
}