Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla; Xuwang Yin; Vicente Ordonez; Song Feng

publication

Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla, Xuwang Yin, Vicente Ordonez, Song Feng.

North American Chapter of the Association for Computational Linguistics. NAACL 2019. System Demonstrations. Minneapolis, MN. June 2019.

artigo arxiv code pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da University of Virginia e da IBM construíram uma ferramenta de coleta de dados chamada Chat-crowd que permite que pares de trabalhadores humanos reconstruam layouts visuais por meio de conversas de ida e volta, com o objetivo de gerar dados de treinamento para sistemas de IA que precisam compreender linguagem espacial. A configuração atribui a um trabalhador o papel de "diretor", que pode ver uma imagem de referência contendo formas ou objetos do mundo real, e a outro o papel de "designer", que manipula uma tela editável com base apenas nas instruções de texto do diretor. Uma escolha de engenharia notável é que os dois trabalhadores não precisam estar online simultaneamente — pessoas diferentes podem assumir qualquer um dos papéis no meio da conversa, o que reduz o custo e a complexidade da coleta de dados por crowdsourcing. O sistema também injeta mensagens sintéticas de um bot para provocar movimentos de conversa menos comuns, como perguntas de esclarecimento, e usa essas injeções para avaliar discretamente a qualidade dos trabalhadores. Ao testar a plataforma com layouts de formas geométricas simples e arranjos de objetos do conjunto de dados de imagens COCO, os pesquisadores constataram que os diretores descreviam objetos de forma confiável usando localização, cor e forma em mais de 90 por cento das instruções, enquanto os designers faziam perguntas de esclarecimento apenas cerca de 40 por cento das vezes e geralmente apenas modificavam a tela diretamente. Cenas mais complexas — aquelas com seis a oito objetos — exigiram mais do que o dobro de rodadas conversacionais para serem concluídas em comparação com as mais simples, ressaltando como a complexidade da cena impulsiona a demanda linguística. O trabalho é importante porque conjuntos de dados que combinam linguagem natural com raciocínio espacial continuam escassos, e o Chat-crowd oferece uma maneira prática e escalável de produzi-los para treinar futuros sistemas de IA de visão e linguagem.

resumo

Neste artigo, apresentamos o Chat-crowd, um ambiente interativo para composição de layouts visuais por meio de interações conversacionais. O Chat-crowd suporta múltiplos agentes com dois papéis conversacionais: agentes que desempenham o papel de designer são responsáveis por posicionar objetos em uma tela editável de acordo com instruções ou comandos emitidos por agentes com o papel de diretor. O sistema pode ser integrado a plataformas de crowdsourcing para coleta de dados tanto síncrona quanto assíncrona e está equipado com controles de qualidade abrangentes sobre o desempenho de ambos os tipos de agentes. Esperamos que este sistema seja útil para construir tarefas de diálogo multimodal orientadas a objetivos que exijam raciocínio espacial e geométrico.

citação

@inproceedings{cascantebonilla2019chat,
  title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
  author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
  year = {2019},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
  url = {https://chatcrowd.github.io/},
}