SimVQA: Exploring Simulated Environments for Visual Question Answering.
新闻稿摘要
莱斯大学、MIT-IBM Watson AI Lab 和弗吉尼亚大学的研究人员找到了一种利用计算机生成的合成图像来教视觉问答(VQA)系统掌握那些仅靠真实世界照片难以学会的技能的方法。该团队解决的核心问题是,从真实图像构建大型 VQA 数据集成本高昂、引发隐私担忧,并且限制了模型可以学习的场景多样性。为绕开这一问题,研究人员通过扩展现有的逼真 3D 场景数据集并使用物理仿真平台,构建了两个新的合成数据集——Hypersim-VQA 和 ThreeDWorld-VQA——它们自动生成与涵盖计数、颜色、物体存在性和空间关系的问答集配对的图像。他们的实验表明,一个完全没有用真实数据中的计数问题训练过的 VQA 模型,在训练时仅给定合成的计数样本,仍然能够学会在真实图像中对物体进行计数,这证明了在渲染图像与照片图像之间存在显著视觉差距的情况下,仍能实现有意义的迁移。该团队还开发了一种名为 Feature Swapping(F-SWAP)的技术,它通过在训练期间简单地交换真实图像与合成图像之间的物体级特征表示,绕开了对抗训练等传统的域自适应方法。该方法的表现优于更复杂的替代方案,包括对抗式域自适应和 Maximum Mean Discrepancy 对齐,同时避免了生成对抗训练相关的不稳定性。这项工作之所以重要,是因为它为扩展 AI 训练数据提供了一条相对低成本、保护隐私的途径,并表明合成环境可以在填补多模态 AI 系统真实世界数据集空白方面发挥实际作用。
摘要
现有的 VQA 工作通过扰动数据集中的图像或修改现有的问题和答案来探索数据增强,以实现更好的泛化。虽然这些方法表现出良好的性能,但问题和答案的多样性受到可用图像集的限制。在这项工作中,我们探索使用合成的计算机生成数据来完全控制视觉和语言空间,使我们能够提供更多样化的场景。我们量化了合成数据在真实世界 VQA 基准中的效果,以及它在多大程度上产生可泛化到真实数据的结果。通过利用 3D 和物理仿真平台,我们提供了一条生成合成数据的流程,以扩展和替换特定类型的问题和答案,而不会有暴露真实图像中可能存在的敏感或个人数据的风险。我们提供了全面的分析,同时扩展了现有的超逼真数据集以用于 VQA。我们还提出了 Feature Swapping(F-SWAP)——即在训练期间随机切换物体级特征,以使 VQA 模型更具域不变性。我们表明,F-SWAP 能够有效增强当前现有的真实图像 VQA 数据集,而不会影响回答数据集中现有问题的准确性。
详情
引用
@inproceedings{cascantebonilla2022simvqa,
title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
year = {2022},
booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
url = {https://arxiv.org/abs/2203.17219},
}