SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla; Hui Wu; Letao Wang; Rogerio Feris; Vicente Ordonez

← quay lại danh sách công bố

publication

SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2022. New Orleans, LA.

bài báo project page pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu từ Rice University, MIT-IBM Watson AI Lab và University of Virginia đã tìm ra một cách sử dụng hình ảnh tổng hợp do máy tính tạo ra để dạy các hệ thống trả lời câu hỏi trực quan (VQA) những kỹ năng mà chúng khó học được chỉ từ các bức ảnh thực tế. Vấn đề cốt lõi mà nhóm giải quyết là việc xây dựng các bộ dữ liệu VQA lớn từ ảnh thực rất tốn kém, làm dấy lên lo ngại về quyền riêng tư, và giới hạn sự đa dạng của các kịch bản mà một mô hình có thể học được. Để khắc phục điều này, các nhà nghiên cứu đã xây dựng hai bộ dữ liệu tổng hợp mới — Hypersim-VQA và ThreeDWorld-VQA — bằng cách mở rộng một bộ dữ liệu cảnh 3D chân thực hiện có và sử dụng một nền tảng mô phỏng vật lý để tự động tạo ra các ảnh được ghép cặp với các tập câu hỏi-câu trả lời bao trùm đếm, màu sắc, sự tồn tại của đối tượng, và các quan hệ không gian. Các thí nghiệm của họ cho thấy một mô hình VQA được huấn luyện hoàn toàn không có câu hỏi đếm từ dữ liệu thực vẫn có thể học đếm các đối tượng trong ảnh thực khi chỉ được cung cấp các ví dụ đếm tổng hợp trong quá trình huấn luyện, chứng minh sự chuyển giao có ý nghĩa qua khoảng cách trực quan đáng kể giữa ảnh được dựng hình và ảnh chụp. Nhóm cũng đã phát triển một kỹ thuật gọi là Feature Swapping (F-SWAP), né tránh các cách tiếp cận thích ứng miền truyền thống như huấn luyện đối kháng (adversarial training) bằng cách chỉ đơn giản hoán đổi các biểu diễn đặc trưng ở cấp độ đối tượng giữa ảnh thực và ảnh tổng hợp trong quá trình huấn luyện. Phương pháp này vượt trội hơn các giải pháp thay thế phức tạp hơn, bao gồm thích ứng miền đối kháng và căn chỉnh Maximum Mean Discrepancy, trong khi tránh được sự bất ổn định liên quan đến huấn luyện sinh đối kháng. Công trình này quan trọng vì nó cung cấp một con đường tương đối ít tốn kém, an toàn về quyền riêng tư để mở rộng dữ liệu huấn luyện AI và gợi ý rằng các môi trường tổng hợp có thể đóng một vai trò thiết thực trong việc lấp đầy các khoảng trống trong các bộ dữ liệu thực tế cho các hệ thống AI đa phương thức.

tóm tắt

Các công trình hiện có về VQA khám phá việc tăng cường dữ liệu (data augmentation) để đạt được khái quát hóa tốt hơn bằng cách nhiễu loạn các ảnh trong bộ dữ liệu hoặc sửa đổi các câu hỏi và câu trả lời hiện có. Mặc dù các phương pháp này thể hiện hiệu suất tốt, sự đa dạng của các câu hỏi và câu trả lời lại bị ràng buộc bởi tập ảnh có sẵn. Trong công trình này, chúng tôi khám phá việc sử dụng dữ liệu tổng hợp do máy tính tạo ra để kiểm soát hoàn toàn không gian trực quan và ngôn ngữ, cho phép chúng tôi cung cấp các kịch bản đa dạng hơn. Chúng tôi định lượng tác động của dữ liệu tổng hợp trong các benchmark VQA thực tế và mức độ mà nó tạo ra các kết quả khái quát hóa được sang dữ liệu thực. Bằng cách khai thác các nền tảng mô phỏng 3D và vật lý, chúng tôi cung cấp một pipeline để tạo dữ liệu tổng hợp nhằm mở rộng và thay thế các câu hỏi và câu trả lời theo loại cụ thể mà không gặp rủi ro phơi bày dữ liệu nhạy cảm hoặc cá nhân có thể hiện diện trong các ảnh thực. Chúng tôi cung cấp một phân tích toàn diện đồng thời mở rộng các bộ dữ liệu siêu thực hiện có để sử dụng cho VQA. Chúng tôi cũng đề xuất Feature Swapping (F-SWAP) — trong đó chúng tôi ngẫu nhiên hoán đổi các đặc trưng ở cấp độ đối tượng trong quá trình huấn luyện để làm cho một mô hình VQA bất biến với miền hơn. Chúng tôi cho thấy rằng F-SWAP hiệu quả trong việc nâng cao một bộ dữ liệu VQA hiện có gồm các ảnh thực mà không làm ảnh hưởng đến độ chính xác trong việc trả lời các câu hỏi hiện có trong bộ dữ liệu.

chi tiết

ghi chú: Accepted to CVPR 2022. Camera-Ready version. Project page: https://simvqa.github.io/

trích dẫn

@inproceedings{cascantebonilla2022simvqa,
  title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
  author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
  year = {2022},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
  url = {https://arxiv.org/abs/2203.17219},
}