Chat-crowd: A Dialog-based Platform for Visual Layout Composition
Sintesi del comunicato stampa
I ricercatori della University of Virginia e di IBM hanno realizzato uno strumento di raccolta dati chiamato Chat-crowd che consente a coppie di lavoratori umani di ricostruire layout visivi attraverso una conversazione a botta e risposta, con l'obiettivo di generare dati di addestramento per sistemi di IA che devono comprendere il linguaggio spaziale. L'impostazione assegna a un lavoratore il ruolo di "director", che può vedere un'immagine di riferimento contenente forme o oggetti del mondo reale, e a un altro quello di "designer", che manipola una tela modificabile basandosi unicamente sulle istruzioni testuali del director. Una scelta ingegneristica degna di nota è che i due lavoratori non devono essere online contemporaneamente: persone diverse possono assumere l'uno o l'altro ruolo a metà conversazione, il che riduce il costo e la complessità della raccolta dati tramite crowdsourcing. Il sistema inserisce inoltre messaggi sintetici generati da un bot per stimolare mosse conversazionali meno comuni, come le domande di chiarimento, e utilizza tali inserimenti per valutare discretamente la qualità del lavoratore. Testando la piattaforma su semplici layout di forme geometriche e su disposizioni di oggetti tratte dal dataset di immagini COCO, i ricercatori hanno riscontrato che i director descrivevano in modo affidabile gli oggetti usando posizione, colore e forma in oltre il 90 percento delle istruzioni, mentre i designer ponevano domande di chiarimento solo circa nel 40 percento dei casi, limitandosi di solito a modificare direttamente la tela. Le scene più complesse — quelle con sei-otto oggetti — richiedevano per essere completate più del doppio dei turni conversazionali rispetto a quelle più semplici, a sottolineare come la complessità della scena determini la domanda linguistica. Il lavoro è importante perché i dataset che abbinano linguaggio naturale e ragionamento spaziale restano scarsi, e Chat-crowd offre un modo pratico e scalabile per produrli al fine di addestrare i futuri sistemi di IA di visione e linguaggio.
abstract
In questo articolo presentiamo Chat-crowd, un ambiente interattivo per la composizione di layout visivi tramite interazioni conversazionali. Chat-crowd supporta più agenti con due ruoli conversazionali: gli agenti che svolgono il ruolo di designer hanno il compito di posizionare gli oggetti su una tela modificabile seguendo le istruzioni o i comandi impartiti dagli agenti con ruolo di director. Il sistema può essere integrato con piattaforme di crowdsourcing sia per la raccolta dati sincrona che asincrona ed è dotato di controlli di qualità completi sulle prestazioni di entrambi i tipi di agenti. Ci aspettiamo che questo sistema risulti utile per costruire compiti di dialogo multimodale orientati a obiettivi che richiedono ragionamento spaziale e geometrico.
citazione
@inproceedings{cascantebonilla2019chat,
title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
year = {2019},
booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
url = {https://chatcrowd.github.io/},
}