Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla; Xuwang Yin; Vicente Ordonez; Song Feng

publication

Chat-crowd: A Dialog-based Platform for Visual Layout Composition

Paola Cascante-Bonilla, Xuwang Yin, Vicente Ordonez, Song Feng.

North American Chapter of the Association for Computational Linguistics. NAACL 2019. System Demonstrations. Minneapolis, MN. June 2019.

bài báo arxiv code pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu từ University of Virginia và IBM đã xây dựng một công cụ thu thập dữ liệu gọi là Chat-crowd, cho phép các cặp người làm việc tái tạo các bố cục thị giác thông qua hội thoại qua lại, với mục tiêu tạo ra dữ liệu huấn luyện cho các hệ thống AI cần hiểu ngôn ngữ không gian. Thiết lập gán cho một người làm việc vai trò "đạo diễn", người có thể nhìn thấy một ảnh tham chiếu chứa các hình dạng hoặc các đối tượng trong thế giới thực, và một người khác làm "nhà thiết kế", người thao tác một khung vẽ có thể chỉnh sửa chỉ dựa trên các chỉ dẫn văn bản của đạo diễn. Một lựa chọn kỹ thuật đáng chú ý là hai người làm việc không cần phải trực tuyến đồng thời — những người khác nhau có thể đảm nhận một trong hai vai trò giữa chừng cuộc hội thoại, điều này làm giảm chi phí và độ phức tạp của việc thu thập dữ liệu huy động cộng đồng. Hệ thống cũng chèn các tin nhắn tổng hợp từ một bot để khơi gợi các động thái hội thoại ít phổ biến hơn, chẳng hạn như các câu hỏi làm rõ, và sử dụng những lần chèn đó để âm thầm đánh giá chất lượng của người làm việc. Kiểm thử nền tảng trên các bố cục hình dạng hình học đơn giản và các sắp xếp đối tượng từ bộ dữ liệu ảnh COCO, các nhà nghiên cứu phát hiện ra rằng các đạo diễn mô tả một cách đáng tin cậy các đối tượng bằng vị trí, màu sắc, và hình dạng trong hơn 90 phần trăm các chỉ dẫn, trong khi các nhà thiết kế chỉ đặt câu hỏi làm rõ khoảng 40 phần trăm thời gian và thường chỉ trực tiếp chỉnh sửa khung vẽ. Các cảnh phức tạp hơn — những cảnh có sáu đến tám đối tượng — đòi hỏi nhiều hơn gấp đôi số lượt hội thoại để hoàn thành so với những cảnh đơn giản hơn, nhấn mạnh cách độ phức tạp của cảnh thúc đẩy nhu cầu về ngôn ngữ. Công trình có ý nghĩa vì các bộ dữ liệu ghép cặp ngôn ngữ tự nhiên với suy luận không gian vẫn còn khan hiếm, và Chat-crowd mang lại một cách thực tiễn, có khả năng mở rộng để tạo ra chúng cho việc huấn luyện các hệ thống AI thị giác-và-ngôn ngữ trong tương lai.

tóm tắt

Trong bài báo này, chúng tôi giới thiệu Chat-crowd, một môi trường tương tác cho việc soạn bố cục thị giác thông qua các tương tác hội thoại. Chat-crowd hỗ trợ nhiều tác nhân với hai vai trò hội thoại: các tác nhân đóng vai nhà thiết kế chịu trách nhiệm đặt các đối tượng vào một khung vẽ có thể chỉnh sửa theo các chỉ dẫn hoặc mệnh lệnh do các tác nhân có vai trò đạo diễn đưa ra. Hệ thống có thể được tích hợp với các nền tảng huy động cộng đồng (crowdsourcing) cho cả việc thu thập dữ liệu đồng bộ và bất đồng bộ và được trang bị các biện pháp kiểm soát chất lượng toàn diện về hiệu suất của cả hai loại tác nhân. Chúng tôi kỳ vọng rằng hệ thống này sẽ hữu ích để xây dựng các tác vụ hội thoại hướng mục tiêu đa phương thức đòi hỏi suy luận về không gian và hình học.

trích dẫn

@inproceedings{cascantebonilla2019chat,
  title = {Chat-crowd: A Dialog-based Platform for Visual Layout Composition},
  author = {Cascante-Bonilla, Paola and Yin, Xuwang and Ordonez, Vicente and Feng, Song},
  year = {2019},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2019},
  url = {https://chatcrowd.github.io/},
}