SimVQA: Exploring Simulated Environments for Visual Question Answering.
보도 자료 요약
라이스 대학교, MIT-IBM Watson AI Lab, 버지니아 대학교의 연구진은 컴퓨터로 생성한 합성 이미지를 사용하여 시각적 질의응답(VQA) 시스템이 실세계 사진만으로는 학습하기 어려워하는 기술을 가르치는 방법을 찾아냈다. 이 팀이 다룬 핵심 문제는 실제 이미지로 대규모 VQA 데이터셋을 구축하는 것이 비용이 많이 들고, 프라이버시 우려를 야기하며, 모델이 학습할 수 있는 시나리오의 다양성을 제한한다는 점이다. 이를 우회하기 위해 연구진은 기존의 사실적인 3D 장면 데이터셋을 확장하고 물리 시뮬레이션 플랫폼을 사용하여 세기, 색상, 객체 존재, 공간 관계를 다루는 질문-답변 집합과 짝지어진 이미지를 자동으로 생성함으로써 Hypersim-VQA와 ThreeDWorld-VQA라는 두 개의 새로운 합성 데이터셋을 구축했다. 그들의 실험은 실제 데이터의 세기 질문 없이 완전히 학습된 VQA 모델이 학습 중에 합성 세기 예제만 주어졌을 때도 실제 이미지에서 객체를 세는 법을 학습할 수 있음을 보여주어, 렌더링된 이미지와 사진 이미지 사이의 상당한 시각적 격차에 걸친 의미 있는 전이를 입증했다. 연구팀은 또한 Feature Swapping (F-SWAP)이라는 기법을 개발했는데, 이는 적대적 학습과 같은 전통적인 도메인 적응 접근법을 우회하여 단순히 학습 중에 실제 이미지와 합성 이미지 사이의 객체 수준 특징 표현을 교체한다. 이 방법은 적대적 도메인 적응과 Maximum Mean Discrepancy 정렬을 포함한 더 복잡한 대안들을 능가하면서 생성적 적대 학습과 관련된 불안정성을 피했다. 이 연구가 중요한 이유는 AI 학습 데이터를 확장하는 비교적 저비용이고 프라이버시에 안전한 길을 제공하며, 합성 환경이 멀티모달 AI 시스템을 위한 실세계 데이터셋의 격차를 메우는 데 실용적인 역할을 할 수 있음을 시사하기 때문이다.
초록
VQA에 관한 기존 연구는 데이터셋의 이미지를 교란하거나 기존 질문과 답변을 수정함으로써 더 나은 일반화를 달성하기 위한 데이터 증강을 탐구한다. 이러한 방법들은 좋은 성능을 보이지만, 질문과 답변의 다양성은 이용 가능한 이미지 집합에 의해 제약된다. 본 연구에서 우리는 합성 컴퓨터 생성 데이터를 사용하여 시각 및 언어 공간을 완전히 제어함으로써 더 다양한 시나리오를 제공할 수 있게 하는 방법을 탐구한다. 우리는 실세계 VQA 벤치마크에서 합성 데이터의 효과와 그것이 어느 정도까지 실제 데이터로 일반화되는 결과를 산출하는지를 정량화한다. 3D 및 물리 시뮬레이션 플랫폼을 활용하여, 우리는 실제 이미지에 존재할 수 있는 민감하거나 개인적인 데이터의 노출 위험 없이 유형별 질문과 답변을 확장하고 대체하는 합성 데이터 생성 파이프라인을 제공한다. 우리는 기존의 초사실적(hyper-realistic) 데이터셋을 VQA에 사용할 수 있도록 확장하면서 종합적인 분석을 제공한다. 우리는 또한 Feature Swapping (F-SWAP)을 제안하는데, 이는 학습 중에 객체 수준 특징을 무작위로 교체하여 VQA 모델을 더 도메인 불변적으로 만든다. 우리는 F-SWAP이 데이터셋의 기존 질문에 답하는 정확도를 손상시키지 않으면서 실제 이미지로 된 현존하는 VQA 데이터셋을 강화하는 데 효과적임을 보인다.
세부 정보
인용
@inproceedings{cascantebonilla2022simvqa,
title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
year = {2022},
booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
url = {https://arxiv.org/abs/2203.17219},
}