SimVQA: Exploring Simulated Environments for Visual Question Answering.
publication

SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez.
Conf. on Computer Vision and Pattern Recognition CVPR 2022. New Orleans, LA.
研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表(記者)スタイルの文体で書かれています。

Rice University、MIT-IBM Watson AI Lab、University of Virginiaの研究者らは、コンピュータで生成した合成画像を用いて、視覚的質問応答(VQA)システムが現実世界の写真だけからは習得に苦労するスキルを教える方法を見出しました。研究チームが取り組んだ中心的な問題は、実画像から大規模なVQAデータセットを構築するのは費用がかかり、プライバシー上の懸念を生み、モデルが学習できるシナリオの多様性を制限するということです。これを回避するため、研究者らは、既存の写真のように写実的な3DシーンデータセットHypersim-VQAを拡張し、また物理シミュレーションプラットフォームを用いて、計数、色、物体の存在、空間関係を扱う質問・回答セットとペアになった画像を自動生成することで、2つの新しい合成データセット、Hypersim-VQAとThreeDWorld-VQAを構築しました。彼らの実験は、実データの計数質問をまったく使わずに学習したVQAモデルが、学習中に合成の計数サンプルだけを与えられた場合でも、実画像中の物体を数えることを学習できることを示し、レンダリング画像と写真画像の間の大きな視覚的ギャップを越えた意味のある転移を実証しました。研究チームはまた、特徴スワッピング(F-SWAP)と呼ばれる技術も開発しました。これは、学習中に実画像と合成画像の間で物体レベルの特徴表現を単に入れ替えることで、敵対的学習のような従来のドメイン適応アプローチを回避するものです。この手法は、敵対的ドメイン適応や最大平均不一致(Maximum Mean Discrepancy)アラインメントなどのより複雑な代替手法を上回り、しかも生成的敵対的学習に伴う不安定性を回避しました。この研究は、AIの学習データを拡張するための比較的低コストでプライバシーに配慮した道筋を提供し、合成環境がマルチモーダルAIシステムのための現実世界データセットの穴を埋めるうえで実用的な役割を果たしうることを示唆している点で重要です。

要旨

VQAに関する既存の研究は、データセット内の画像に摂動を加えたり、既存の質問と回答を変更したりすることで、より良い汎化を達成するためのデータ拡張を探求しています。これらの手法は良好な性能を示しますが、質問と回答の多様性は利用可能な画像セットによって制約されます。本研究では、コンピュータで生成された合成データを用いて視覚空間と言語空間を完全に制御し、より多様なシナリオを提供できるようにすることを探求します。我々は、現実世界のVQAベンチマークにおける合成データの効果と、それが実データに汎化する結果をどの程度生み出すかを定量化します。3Dおよび物理シミュレーションプラットフォームを活用することで、実画像に含まれうる機微な個人データを露出させる危険を冒すことなく、タイプ固有の質問と回答を拡張・置換するための合成データを生成するパイプラインを提供します。我々は、VQAに使用するために既存の超現実的なデータセットを拡張しつつ、包括的な分析を提供します。また、VQAモデルをよりドメイン不変にするために、学習中に物体レベルの特徴をランダムに入れ替える特徴スワッピング(Feature Swapping、F-SWAP)も提案します。F-SWAPが、データセット内の既存の質問に回答する精度を損なうことなく、現在存在する実画像のVQAデータセットを強化するのに効果的であることを示します。

詳細

コメント
Accepted to CVPR 2022. Camera-Ready version. Project page: https://simvqa.github.io/

引用

@inproceedings{cascantebonilla2022simvqa,
  title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
  author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
  year = {2022},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
  url = {https://arxiv.org/abs/2203.17219},
}