Chat-crowd: A Dialog-based Platform for Visual Layout Composition
publication

Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla, Xuwang Yin, Vicente Ordonez, Song Feng.
North American Chapter of the Association for Computational Linguistics. NAACL 2019. System Demonstrations. Minneapolis, MN. June 2019.
연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

버지니아 대학교와 IBM의 연구진은 한 쌍의 인간 작업자가 주고받는 대화를 통해 시각적 레이아웃을 재구성할 수 있게 하는 Chat-crowd라는 데이터 수집 도구를 구축했으며, 그 목표는 공간 언어를 이해해야 하는 AI 시스템을 위한 학습 데이터를 생성하는 것이다. 이 설정은 한 작업자에게 모양이나 실세계 객체가 담긴 참조 이미지를 볼 수 있는 "디렉터" 역할을, 다른 작업자에게 디렉터의 텍스트 지시에만 기반하여 편집 가능한 캔버스를 조작하는 "디자이너" 역할을 할당한다. 주목할 만한 엔지니어링 선택은 두 작업자가 동시에 온라인 상태일 필요가 없다는 점이다. 서로 다른 사람들이 대화 도중에 어느 역할이든 이어받을 수 있는데, 이는 크라우드소싱 데이터 수집의 비용과 복잡성을 낮춘다. 이 시스템은 또한 명료화 질문과 같은 덜 흔한 대화 동작을 유발하기 위해 봇으로부터 합성 메시지를 주입하고, 그러한 주입을 사용하여 작업자 품질을 조용히 평가한다. COCO 이미지 데이터셋에서 가져온 단순한 기하학적 모양 레이아웃과 객체 배치에 대해 플랫폼을 테스트한 결과, 연구진은 디렉터가 90% 이상의 지시에서 위치, 색상, 모양을 사용하여 객체를 안정적으로 묘사한 반면, 디자이너는 약 40%의 경우에만 명료화 질문을 하고 대개는 그냥 캔버스를 직접 수정했음을 발견했다. 더 복잡한 장면 — 6개에서 8개의 객체가 있는 — 은 더 단순한 것들보다 완료하는 데 두 배 이상 많은 대화 라운드를 요구하여, 장면 복잡성이 어떻게 언어 수요를 끌어올리는지를 강조했다. 이 연구가 중요한 이유는 자연어와 공간 추론을 짝지은 데이터셋이 여전히 부족하며, Chat-crowd가 미래의 비전-언어 AI 시스템을 학습시키기 위해 그것들을 생산하는 실용적이고 확장 가능한 방법을 제공하기 때문이다.

초록

본 논문에서 우리는 대화형 상호작용을 통한 시각적 레이아웃 구성을 위한 인터랙티브 환경인 Chat-crowd를 소개한다. Chat-crowd는 두 가지 대화 역할을 갖는 다중 에이전트를 지원한다. 디자이너 역할을 하는 에이전트는 디렉터 역할을 하는 에이전트가 발행한 지시나 명령에 따라 편집 가능한 캔버스에 객체를 배치하는 임무를 맡는다. 이 시스템은 동기 및 비동기 데이터 수집 모두를 위해 크라우드소싱 플랫폼과 통합될 수 있으며, 두 유형의 에이전트 성능에 대한 종합적인 품질 관리를 갖추고 있다. 우리는 이 시스템이 공간적·기하학적 추론을 요구하는 멀티모달 목표 지향 대화 작업을 구축하는 데 유용할 것으로 기대한다.

인용

@inproceedings{cascantebonilla2019chat,
  title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
  author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
  year = {2019},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
  url = {https://chatcrowd.github.io/},
}