SimVQA: Exploring Simulated Environments for Visual Question Answering.
Краткое изложение пресс-релиза
Исследователи из Rice University, MIT-IBM Watson AI Lab и University of Virginia нашли способ использовать сгенерированные компьютером синтетические изображения, чтобы обучить системы визуального ответа на вопросы (VQA) навыкам, которые им трудно освоить только на реальных фотографиях. Основная проблема, над которой работала команда, в том, что построение больших наборов данных VQA из реальных изображений дорого, вызывает опасения по поводу конфиденциальности и ограничивает разнообразие сценариев, на которых может учиться модель. Чтобы обойти это, исследователи построили два новых синтетических набора данных — Hypersim-VQA и ThreeDWorld-VQA — расширив существующий фотореалистичный набор данных 3D-сцен и используя платформу физической симуляции для автоматической генерации изображений в паре с наборами вопросов и ответов, охватывающими подсчёт, цвет, существование объектов и пространственные отношения. Их эксперименты показали, что VQA-модель, обученная полностью без вопросов на подсчёт из реальных данных, всё же могла научиться считать объекты на реальных изображениях, получив при обучении только синтетические примеры на подсчёт, что демонстрирует значимый перенос через существенный визуальный разрыв между отрендеренными и фотографическими изображениями. Команда также разработала технику под названием Feature Swapping (F-SWAP), которая обходит традиционные подходы доменной адаптации, такие как состязательное обучение, просто меняя местами признаковые представления уровня объектов между реальными и синтетическими изображениями во время обучения. Этот метод превзошёл более сложные альтернативы, включая состязательную доменную адаптацию и выравнивание по Maximum Mean Discrepancy, избегая при этом нестабильности, связанной с генеративным состязательным обучением. Работа важна, поскольку предлагает относительно недорогой, безопасный для конфиденциальности путь расширения данных для обучения AI и говорит о том, что синтетические среды могли бы играть практическую роль в заполнении пробелов в реальных наборах данных для мультимодальных AI-систем.
аннотация
Существующие работы по VQA исследуют аугментацию данных для достижения лучшего обобщения путём пертурбации изображений в наборе данных или модификации существующих вопросов и ответов. Хотя эти методы демонстрируют хорошую производительность, разнообразие вопросов и ответов ограничено доступным набором изображений. В этой работе мы исследуем использование синтетических, сгенерированных компьютером данных для полного контроля над визуальным и языковым пространством, что позволяет нам предоставлять более разнообразные сценарии. Мы количественно оцениваем влияние синтетических данных на реальные бенчмарки VQA и то, в какой степени они дают результаты, обобщающиеся на реальные данные. Используя платформы 3D- и физической симуляции, мы предоставляем пайплайн для генерации синтетических данных, чтобы расширять и заменять вопросы и ответы определённого типа без риска раскрытия конфиденциальных или персональных данных, которые могут присутствовать в реальных изображениях. Мы предлагаем всесторонний анализ, расширяя существующие гиперреалистичные наборы данных для использования в VQA. Мы также предлагаем Feature Swapping (F-SWAP) — где мы случайным образом переключаем признаки уровня объектов во время обучения, чтобы сделать VQA-модель более инвариантной к домену. Мы показываем, что F-SWAP эффективен для улучшения существующего набора данных VQA из реальных изображений без ущерба для точности ответов на существующие вопросы в наборе данных.
подробности
цитирование
@inproceedings{cascantebonilla2022simvqa,
title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
year = {2022},
booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
url = {https://arxiv.org/abs/2203.17219},
}