SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla; Hui Wu; Letao Wang; Rogerio Feris; Vicente Ordonez

← voltar às publicações

publication

SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2022. New Orleans, LA.

artigo project page pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University, do MIT-IBM Watson AI Lab e da University of Virginia encontraram uma maneira de usar imagens sintéticas geradas por computador para ensinar a sistemas de perguntas e respostas visuais (VQA) habilidades que eles têm dificuldade em aprender apenas com fotografias do mundo real. O problema central que a equipe enfrentou é que construir grandes conjuntos de dados de VQA a partir de imagens reais é caro, levanta preocupações de privacidade e limita a variedade de cenários com os quais um modelo pode aprender. Para contornar isso, os pesquisadores criaram dois novos conjuntos de dados sintéticos — Hypersim-VQA e ThreeDWorld-VQA — estendendo um conjunto de dados existente de cenas 3D fotorrealistas e usando uma plataforma de simulação de física para gerar automaticamente imagens associadas a conjuntos de perguntas e respostas abrangendo contagem, cor, existência de objetos e relações espaciais. Seus experimentos mostraram que um modelo de VQA treinado inteiramente sem perguntas de contagem provenientes de dados reais ainda conseguia aprender a contar objetos em imagens reais quando recebia apenas exemplos sintéticos de contagem durante o treinamento, demonstrando uma transferência significativa através da considerável diferença visual entre imagens renderizadas e fotográficas. A equipe também desenvolveu uma técnica chamada Feature Swapping (F-SWAP), que contorna abordagens tradicionais de adaptação de domínio, como o treinamento adversarial, simplesmente trocando representações de características em nível de objeto entre imagens reais e sintéticas durante o treinamento. Esse método superou alternativas mais complexas, incluindo a adaptação de domínio adversarial e o alinhamento por Maximum Mean Discrepancy, ao mesmo tempo em que evitou a instabilidade associada ao treinamento adversarial generativo. O trabalho é importante porque oferece um caminho de custo relativamente baixo e seguro em termos de privacidade para expandir os dados de treinamento de IA e sugere que ambientes sintéticos podem desempenhar um papel prático no preenchimento de lacunas em conjuntos de dados do mundo real para sistemas de IA multimodais.

resumo

Os trabalhos existentes em VQA exploram a ampliação de dados (data augmentation) para alcançar melhor generalização, perturbando as imagens do conjunto de dados ou modificando as perguntas e respostas existentes. Embora esses métodos apresentem bom desempenho, a diversidade das perguntas e respostas é limitada pelo conjunto de imagens disponível. Neste trabalho, exploramos o uso de dados sintéticos gerados por computador para controlar totalmente o espaço visual e linguístico, permitindo-nos fornecer cenários mais diversos. Quantificamos o efeito dos dados sintéticos em benchmarks de VQA do mundo real e em que medida eles produzem resultados que generalizam para dados reais. Aproveitando plataformas de simulação 3D e de física, fornecemos um pipeline para gerar dados sintéticos a fim de expandir e substituir perguntas e respostas específicas de tipo sem o risco de expor dados sensíveis ou pessoais que possam estar presentes em imagens reais. Oferecemos uma análise abrangente ao expandir conjuntos de dados hiper-realistas existentes para uso em VQA. Também propomos o Feature Swapping (F-SWAP) -- em que trocamos aleatoriamente características em nível de objeto durante o treinamento para tornar um modelo de VQA mais invariante a domínio. Mostramos que o F-SWAP é eficaz para aprimorar um conjunto de dados de VQA já existente de imagens reais sem comprometer a acurácia ao responder às perguntas existentes no conjunto de dados.

detalhes

comentário: Accepted to CVPR 2022. Camera-Ready version. Project page: https://simvqa.github.io/

citação

@inproceedings{cascantebonilla2022simvqa,
  title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
  author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
  year = {2022},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
  url = {https://arxiv.org/abs/2203.17219},
}