Chat-crowd: A Dialog-based Platform for Visual Layout Composition
プレスリリース要約
バージニア大学とIBMの研究者らは、空間的言語を理解する必要があるAIシステムのための訓練データを生成することを目的として、人間の作業者のペアが対話のやり取りを通じて視覚的レイアウトを再構成できるChat-crowdというデータ収集ツールを構築した。この設定では、一方の作業者に「ディレクター」の役割を割り当てる。ディレクターは図形や現実世界のオブジェクトを含む参照画像を見ることができる。もう一方には「デザイナー」の役割を割り当て、デザイナーはディレクターのテキスト指示のみに基づいて編集可能なキャンバスを操作する。注目すべき設計上の選択は、2人の作業者が同時にオンラインである必要がないという点である。異なる人々が会話の途中でどちらの役割も引き継ぐことができ、これによりクラウドソーシングによるデータ収集のコストと複雑さが低減される。本システムはまた、明確化のための質問といったあまり一般的でない会話の動きを引き出すためにボットから合成メッセージを注入し、それらの注入を利用してひそかに作業者の品質を評価する。COCO画像データセットから得た単純な幾何図形のレイアウトやオブジェクトの配置でプラットフォームを検証したところ、研究者らは、ディレクターが90パーセントを超える指示において位置、色、形を用いて確実にオブジェクトを記述する一方、デザイナーが明確化のための質問をするのは約40パーセントの場合に過ぎず、通常は単にキャンバスを直接修正することを見いだした。より複雑なシーン(6個から8個のオブジェクトを含むもの)は、より単純なものに比べて完成までに2倍以上の会話のラウンドを必要とし、シーンの複雑さが言語的な要求を増大させることを浮き彫りにした。自然言語と空間的推論を対応づけたデータセットは依然として乏しく、Chat-crowdが将来の視覚言語AIシステムを訓練するためにそうしたデータを生成する実用的かつスケーラブルな手段を提供する点で、この研究は意義深い。
要旨
本論文では、会話的なやり取りを通じた視覚的レイアウト構成のためのインタラクティブな環境であるChat-crowdを紹介する。Chat-crowdは2つの会話的役割を持つ複数のエージェントをサポートする。デザイナーの役割を担うエージェントは、ディレクターの役割を持つエージェントが発する指示やコマンドに従って、編集可能なキャンバス上にオブジェクトを配置する責任を負う。本システムは同期・非同期両方のデータ収集のためにクラウドソーシングプラットフォームと統合でき、両方の種類のエージェントのパフォーマンスに対する包括的な品質管理を備えている。本システムは、空間的・幾何学的推論を必要とするマルチモーダルな目標指向対話タスクを構築するのに有用であると期待される。
引用
@inproceedings{cascantebonilla2019chat,
title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
year = {2019},
booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
url = {https://chatcrowd.github.io/},
}