SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla; Hui Wu; Letao Wang; Rogerio Feris; Vicente Ordonez

← retour aux publications

publication

SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2022. New Orleans, LA.

article project page pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'Université Rice, du MIT-IBM Watson AI Lab et de l'Université de Virginie ont trouvé un moyen d'utiliser des images de synthèse générées par ordinateur pour enseigner aux systèmes de question-réponse visuelle (VQA) des compétences qu'ils peinent à apprendre à partir de photographies du monde réel seules. Le problème central que l'équipe a abordé est que la constitution de grands jeux de données VQA à partir d'images réelles est coûteuse, soulève des préoccupations de confidentialité et limite la variété des scénarios à partir desquels un modèle peut apprendre. Pour contourner cela, les chercheurs ont créé deux nouveaux jeux de données synthétiques — Hypersim-VQA et ThreeDWorld-VQA — en étendant un jeu de données existant de scènes 3D photoréalistes et en utilisant une plateforme de simulation physique pour générer automatiquement des images associées à des ensembles de questions-réponses portant sur le comptage, la couleur, l'existence d'objets et les relations spatiales. Leurs expériences ont montré qu'un modèle VQA entraîné entièrement sans questions de comptage issues de données réelles pouvait néanmoins apprendre à compter des objets dans des images réelles lorsqu'on ne lui fournissait que des exemples de comptage synthétiques pendant l'entraînement, démontrant un transfert significatif malgré l'écart visuel important entre les images rendues et photographiques. L'équipe a également développé une technique appelée Échange de Caractéristiques (F-SWAP), qui contourne les approches traditionnelles d'adaptation de domaine comme l'entraînement adversarial en se contentant de permuter les représentations de caractéristiques au niveau des objets entre images réelles et synthétiques pendant l'entraînement. Cette méthode a surpassé des alternatives plus complexes, notamment l'adaptation de domaine adversariale et l'alignement par Maximum Mean Discrepancy, tout en évitant l'instabilité associée à l'entraînement adversarial génératif. Ce travail est important car il offre une voie relativement peu coûteuse et respectueuse de la confidentialité pour étendre les données d'entraînement de l'IA, et suggère que les environnements synthétiques pourraient jouer un rôle concret pour combler les lacunes des jeux de données du monde réel destinés aux systèmes d'IA multimodaux.

résumé

Les travaux existants sur le VQA explorent l'augmentation de données pour obtenir une meilleure généralisation en perturbant les images du jeu de données ou en modifiant les questions et réponses existantes. Bien que ces méthodes affichent de bonnes performances, la diversité des questions et des réponses est limitée par l'ensemble d'images disponible. Dans ce travail, nous explorons l'utilisation de données synthétiques générées par ordinateur pour contrôler entièrement l'espace visuel et langagier, ce qui nous permet de fournir des scénarios plus variés. Nous quantifions l'effet des données synthétiques dans des benchmarks VQA du monde réel et dans quelle mesure elles produisent des résultats qui se généralisent aux données réelles. En exploitant des plateformes de simulation 3D et physique, nous proposons un pipeline pour générer des données synthétiques afin d'étendre et de remplacer des questions et réponses spécifiques à un type, sans risquer l'exposition de données sensibles ou personnelles susceptibles d'être présentes dans des images réelles. Nous offrons une analyse complète tout en étendant des jeux de données hyper-réalistes existants destinés au VQA. Nous proposons également l'Échange de Caractéristiques (F-SWAP) — où nous permutons aléatoirement des caractéristiques au niveau des objets pendant l'entraînement afin de rendre un modèle VQA plus invariant au domaine. Nous montrons que F-SWAP est efficace pour améliorer un jeu de données VQA d'images réelles existant sans compromettre la précision de réponse aux questions déjà présentes dans le jeu de données.

détails

commentaire: Accepted to CVPR 2022. Camera-Ready version. Project page: https://simvqa.github.io/

citation

@inproceedings{cascantebonilla2022simvqa,
  title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
  author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
  year = {2022},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
  url = {https://arxiv.org/abs/2203.17219},
}