Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla; Xuwang Yin; Vicente Ordonez; Song Feng

publication

Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla, Xuwang Yin, Vicente Ordonez, Song Feng.

North American Chapter of the Association for Computational Linguistics. NAACL 2019. System Demonstrations. Minneapolis, MN. June 2019.

articolo arxiv code pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della University of Virginia e di IBM hanno realizzato uno strumento di raccolta dati chiamato Chat-crowd che consente a coppie di lavoratori umani di ricostruire layout visivi attraverso una conversazione a botta e risposta, con l'obiettivo di generare dati di addestramento per sistemi di IA che devono comprendere il linguaggio spaziale. L'impostazione assegna a un lavoratore il ruolo di "director", che può vedere un'immagine di riferimento contenente forme o oggetti del mondo reale, e a un altro quello di "designer", che manipola una tela modificabile basandosi unicamente sulle istruzioni testuali del director. Una scelta ingegneristica degna di nota è che i due lavoratori non devono essere online contemporaneamente: persone diverse possono assumere l'uno o l'altro ruolo a metà conversazione, il che riduce il costo e la complessità della raccolta dati tramite crowdsourcing. Il sistema inserisce inoltre messaggi sintetici generati da un bot per stimolare mosse conversazionali meno comuni, come le domande di chiarimento, e utilizza tali inserimenti per valutare discretamente la qualità del lavoratore. Testando la piattaforma su semplici layout di forme geometriche e su disposizioni di oggetti tratte dal dataset di immagini COCO, i ricercatori hanno riscontrato che i director descrivevano in modo affidabile gli oggetti usando posizione, colore e forma in oltre il 90 percento delle istruzioni, mentre i designer ponevano domande di chiarimento solo circa nel 40 percento dei casi, limitandosi di solito a modificare direttamente la tela. Le scene più complesse — quelle con sei-otto oggetti — richiedevano per essere completate più del doppio dei turni conversazionali rispetto a quelle più semplici, a sottolineare come la complessità della scena determini la domanda linguistica. Il lavoro è importante perché i dataset che abbinano linguaggio naturale e ragionamento spaziale restano scarsi, e Chat-crowd offre un modo pratico e scalabile per produrli al fine di addestrare i futuri sistemi di IA di visione e linguaggio.

abstract

In questo articolo presentiamo Chat-crowd, un ambiente interattivo per la composizione di layout visivi tramite interazioni conversazionali. Chat-crowd supporta più agenti con due ruoli conversazionali: gli agenti che svolgono il ruolo di designer hanno il compito di posizionare gli oggetti su una tela modificabile seguendo le istruzioni o i comandi impartiti dagli agenti con ruolo di director. Il sistema può essere integrato con piattaforme di crowdsourcing sia per la raccolta dati sincrona che asincrona ed è dotato di controlli di qualità completi sulle prestazioni di entrambi i tipi di agenti. Ci aspettiamo che questo sistema risulti utile per costruire compiti di dialogo multimodale orientati a obiettivi che richiedono ragionamento spaziale e geometrico.

citazione

@inproceedings{cascantebonilla2019chat,
  title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
  author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
  year = {2019},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
  url = {https://chatcrowd.github.io/},
}