Chat-crowd: A Dialog-based Platform for Visual Layout Composition
Resumo do comunicado de imprensa
Pesquisadores da University of Virginia e da IBM construíram uma ferramenta de coleta de dados chamada Chat-crowd que permite que pares de trabalhadores humanos reconstruam layouts visuais por meio de conversas de ida e volta, com o objetivo de gerar dados de treinamento para sistemas de IA que precisam compreender linguagem espacial. A configuração atribui a um trabalhador o papel de "diretor", que pode ver uma imagem de referência contendo formas ou objetos do mundo real, e a outro o papel de "designer", que manipula uma tela editável com base apenas nas instruções de texto do diretor. Uma escolha de engenharia notável é que os dois trabalhadores não precisam estar online simultaneamente — pessoas diferentes podem assumir qualquer um dos papéis no meio da conversa, o que reduz o custo e a complexidade da coleta de dados por crowdsourcing. O sistema também injeta mensagens sintéticas de um bot para provocar movimentos de conversa menos comuns, como perguntas de esclarecimento, e usa essas injeções para avaliar discretamente a qualidade dos trabalhadores. Ao testar a plataforma com layouts de formas geométricas simples e arranjos de objetos do conjunto de dados de imagens COCO, os pesquisadores constataram que os diretores descreviam objetos de forma confiável usando localização, cor e forma em mais de 90 por cento das instruções, enquanto os designers faziam perguntas de esclarecimento apenas cerca de 40 por cento das vezes e geralmente apenas modificavam a tela diretamente. Cenas mais complexas — aquelas com seis a oito objetos — exigiram mais do que o dobro de rodadas conversacionais para serem concluídas em comparação com as mais simples, ressaltando como a complexidade da cena impulsiona a demanda linguística. O trabalho é importante porque conjuntos de dados que combinam linguagem natural com raciocínio espacial continuam escassos, e o Chat-crowd oferece uma maneira prática e escalável de produzi-los para treinar futuros sistemas de IA de visão e linguagem.
resumo
Neste artigo, apresentamos o Chat-crowd, um ambiente interativo para composição de layouts visuais por meio de interações conversacionais. O Chat-crowd suporta múltiplos agentes com dois papéis conversacionais: agentes que desempenham o papel de designer são responsáveis por posicionar objetos em uma tela editável de acordo com instruções ou comandos emitidos por agentes com o papel de diretor. O sistema pode ser integrado a plataformas de crowdsourcing para coleta de dados tanto síncrona quanto assíncrona e está equipado com controles de qualidade abrangentes sobre o desempenho de ambos os tipos de agentes. Esperamos que este sistema seja útil para construir tarefas de diálogo multimodal orientadas a objetivos que exijam raciocínio espacial e geométrico.
citação
@inproceedings{cascantebonilla2019chat,
title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
year = {2019},
booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
url = {https://chatcrowd.github.io/},
}