Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla; Xuwang Yin; Vicente Ordonez; Song Feng

publication

Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla, Xuwang Yin, Vicente Ordonez, Song Feng.

North American Chapter of the Association for Computational Linguistics. NAACL 2019. System Demonstrations. Minneapolis, MN. June 2019.

Artikel arxiv code pdf BibTeX-Quelltext

Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forscher der University of Virginia und von IBM haben ein Datenerhebungswerkzeug namens Chat-crowd entwickelt, das es Paaren menschlicher Arbeiter ermöglicht, visuelle Layouts durch ein Hin und Her im Gespräch zu rekonstruieren, mit dem Ziel, Trainingsdaten für KI-Systeme zu erzeugen, die räumliche Sprache verstehen müssen. Der Aufbau weist einem Arbeiter die Rolle des "Direktors" zu, der ein Referenzbild mit Formen oder realen Objekten sehen kann, und einem anderen die des "Designers", der eine bearbeitbare Leinwand allein auf Grundlage der Textanweisungen des Direktors manipuliert. Eine bemerkenswerte technische Entscheidung ist, dass die beiden Arbeiter nicht gleichzeitig online sein müssen – verschiedene Personen können mitten im Gespräch eine der beiden Rollen übernehmen, was die Kosten und die Komplexität der per Crowdsourcing durchgeführten Datenerhebung senkt. Das System schleust außerdem synthetische Nachrichten eines Bots ein, um seltenere Gesprächszüge wie Klärungsfragen zu provozieren, und nutzt diese Einschübe, um unauffällig die Qualität der Arbeiter zu bewerten. Beim Testen der Plattform an einfachen geometrischen Formanordnungen und Objektanordnungen aus dem COCO-Bilddatensatz stellten die Forscher fest, dass Direktoren Objekte in über 90 Prozent der Anweisungen zuverlässig anhand von Position, Farbe und Form beschrieben, während Designer nur in etwa 40 Prozent der Fälle Klärungsfragen stellten und die Leinwand meist einfach direkt veränderten. Komplexere Szenen – solche mit sechs bis acht Objekten – erforderten mehr als doppelt so viele Gesprächsrunden zur Fertigstellung wie einfachere, was unterstreicht, wie die Komplexität der Szene den sprachlichen Bedarf antreibt. Die Arbeit ist von Bedeutung, weil Datensätze, die natürliche Sprache mit räumlichem Schlussfolgern verknüpfen, weiterhin selten sind, und Chat-crowd bietet eine praktische, skalierbare Möglichkeit, sie für das Training künftiger Vision-and-Language-KI-Systeme zu erzeugen.

Zusammenfassung

In dieser Arbeit stellen wir Chat-crowd vor, eine interaktive Umgebung zur visuellen Layout-Komposition über dialogbasierte Interaktionen. Chat-crowd unterstützt mehrere Agenten mit zwei dialogbezogenen Rollen: Agenten, die die Rolle eines Designers spielen, sind dafür zuständig, Objekte auf einer bearbeitbaren Leinwand gemäß den Anweisungen oder Befehlen zu platzieren, die von Agenten mit einer Direktorrolle erteilt werden. Das System kann zur synchronen und asynchronen Datenerhebung in Crowdsourcing-Plattformen integriert werden und ist mit umfassenden Qualitätskontrollen für die Leistung beider Arten von Agenten ausgestattet. Wir erwarten, dass dieses System nützlich sein wird, um multimodale zielorientierte Dialogaufgaben aufzubauen, die räumliches und geometrisches Schlussfolgern erfordern.

Zitation

@inproceedings{cascantebonilla2019chat,
  title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
  author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
  year = {2019},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
  url = {https://chatcrowd.github.io/},
}