SimVQA: Exploring Simulated Environments for Visual Question Answering.
Resumen de prensa
Investigadores de la Universidad Rice, el MIT-IBM Watson AI Lab y la Universidad de Virginia han encontrado una manera de usar imágenes sintéticas generadas por computadora para enseñar a los sistemas de respuesta visual a preguntas (VQA) habilidades que les cuesta aprender solo a partir de fotografías del mundo real. El problema central que abordó el equipo es que construir grandes conjuntos de datos de VQA a partir de imágenes reales es costoso, plantea preocupaciones de privacidad y limita la variedad de escenarios de los que un modelo puede aprender. Para sortear esto, los investigadores construyeron dos nuevos conjuntos de datos sintéticos —Hypersim-VQA y ThreeDWorld-VQA— ampliando un conjunto de datos de escenas 3D fotorrealistas existente y utilizando una plataforma de simulación de física para generar automáticamente imágenes emparejadas con conjuntos de preguntas y respuestas que abarcan conteo, color, existencia de objetos y relaciones espaciales. Sus experimentos mostraron que un modelo de VQA entrenado por completo sin preguntas de conteo de datos reales aún podía aprender a contar objetos en imágenes reales cuando se le daban únicamente ejemplos de conteo sintéticos durante el entrenamiento, demostrando una transferencia significativa a través de la considerable brecha visual entre las imágenes renderizadas y las fotográficas. El equipo también desarrolló una técnica llamada Feature Swapping (F-SWAP), que evita los enfoques tradicionales de adaptación de dominio como el entrenamiento adversarial simplemente intercambiando las representaciones de características a nivel de objeto entre imágenes reales y sintéticas durante el entrenamiento. Este método superó a alternativas más complejas, incluyendo la adaptación de dominio adversarial y la alineación por Maximum Mean Discrepancy, evitando al mismo tiempo la inestabilidad asociada con el entrenamiento generativo adversarial. El trabajo es importante porque ofrece un camino relativamente económico y seguro para la privacidad para ampliar los datos de entrenamiento de IA, y sugiere que los entornos sintéticos podrían desempeñar un papel práctico para llenar los vacíos en los conjuntos de datos del mundo real para sistemas de IA multimodal.
resumen
El trabajo existente sobre VQA explora el aumento de datos para lograr una mejor generalización perturbando las imágenes del conjunto de datos o modificando las preguntas y respuestas existentes. Si bien estos métodos exhiben un buen rendimiento, la diversidad de las preguntas y respuestas está limitada por el conjunto de imágenes disponible. En este trabajo exploramos el uso de datos sintéticos generados por computadora para controlar por completo el espacio visual y lingüístico, lo que nos permite proporcionar escenarios más diversos. Cuantificamos el efecto de los datos sintéticos en pruebas comparativas de VQA del mundo real y en qué medida producen resultados que generalizan a datos reales. Aprovechando plataformas de simulación 3D y de física, ofrecemos una canalización para generar datos sintéticos que amplían y reemplazan preguntas y respuestas de tipos específicos sin arriesgar la exposición de datos sensibles o personales que podrían estar presentes en imágenes reales. Ofrecemos un análisis exhaustivo a la vez que ampliamos conjuntos de datos hiperrealistas existentes para su uso en VQA. También proponemos Feature Swapping (F-SWAP) —donde intercambiamos aleatoriamente características a nivel de objeto durante el entrenamiento para hacer que un modelo de VQA sea más invariante al dominio. Mostramos que F-SWAP es eficaz para mejorar un conjunto de datos de VQA de imágenes reales ya existente sin comprometer la precisión al responder las preguntas existentes del conjunto de datos.
detalles
cita
@inproceedings{cascantebonilla2022simvqa,
title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
year = {2022},
booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
url = {https://arxiv.org/abs/2203.17219},
}