SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla; Hui Wu; Letao Wang; Rogerio Feris; Vicente Ordonez

← zurück zu den Publikationen

publication

SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2022. New Orleans, LA.

Artikel project page pdf BibTeX-Quelltext

Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forschende der Rice University, des MIT-IBM Watson AI Lab und der University of Virginia haben einen Weg gefunden, computergenerierte synthetische Bilder zu nutzen, um Systemen zur visuellen Fragebeantwortung (VQA) Fähigkeiten beizubringen, die sie sich allein aus realen Fotografien nur schwer aneignen können. Das Kernproblem, dem sich das Team widmete, besteht darin, dass der Aufbau großer VQA-Datensätze aus realen Bildern teuer ist, Datenschutzbedenken aufwirft und die Vielfalt der Szenarien begrenzt, aus denen ein Modell lernen kann. Um dies zu umgehen, bauten die Forschenden zwei neue synthetische Datensätze – Hypersim-VQA und ThreeDWorld-VQA –, indem sie einen bestehenden fotorealistischen 3D-Szenendatensatz erweiterten und eine Physiksimulationsplattform nutzten, um automatisch Bilder zu erzeugen, die mit Frage-Antwort-Sätzen gepaart waren, die Zählen, Farbe, Objektexistenz und räumliche Beziehungen abdeckten. Ihre Experimente zeigten, dass ein VQA-Modell, das gänzlich ohne Zählfragen aus realen Daten trainiert wurde, dennoch lernen konnte, Objekte in realen Bildern zu zählen, wenn ihm während des Trainings nur synthetische Zählbeispiele gegeben wurden, was einen bedeutsamen Transfer über die erhebliche visuelle Kluft zwischen gerenderten und fotografischen Bildern hinweg demonstrierte. Das Team entwickelte außerdem eine Technik namens Feature Swapping (F-SWAP), die traditionelle Ansätze der Domänenanpassung wie adversariales Training umgeht, indem sie während des Trainings einfach objektbezogene Merkmalsrepräsentationen zwischen realen und synthetischen Bildern austauscht. Diese Methode übertraf komplexere Alternativen, darunter adversariale Domänenanpassung und die Ausrichtung mittels Maximum Mean Discrepancy, und vermied dabei die Instabilität, die mit dem generativen adversarialen Training verbunden ist. Die Arbeit ist bedeutsam, weil sie einen vergleichsweise kostengünstigen, datenschutzsicheren Weg zur Erweiterung von KI-Trainingsdaten bietet und nahelegt, dass synthetische Umgebungen eine praktische Rolle dabei spielen könnten, Lücken in realen Datensätzen für multimodale KI-Systeme zu schließen.

Zusammenfassung

Bestehende Arbeiten zu VQA erkunden Datenaugmentierung, um durch das Stören der Bilder im Datensatz oder das Verändern der vorhandenen Fragen und Antworten eine bessere Generalisierung zu erreichen. Obwohl diese Methoden eine gute Leistung zeigen, ist die Vielfalt der Fragen und Antworten durch die verfügbare Bildmenge eingeschränkt. In dieser Arbeit erkunden wir die Verwendung synthetischer, computergenerierter Daten, um den visuellen und sprachlichen Raum vollständig zu kontrollieren, was es uns ermöglicht, vielfältigere Szenarien bereitzustellen. Wir quantifizieren die Wirkung synthetischer Daten in realen VQA-Benchmarks und das Ausmaß, in dem sie Ergebnisse erzeugen, die auf reale Daten generalisieren. Indem wir 3D- und Physiksimulationsplattformen nutzen, stellen wir eine Pipeline bereit, um synthetische Daten zu erzeugen, mit denen typspezifische Fragen und Antworten erweitert und ersetzt werden, ohne das Risiko einzugehen, sensible oder persönliche Daten preiszugeben, die in realen Bildern enthalten sein könnten. Wir bieten eine umfassende Analyse, während wir bestehende hyperrealistische Datensätze für die Verwendung im VQA erweitern. Wir schlagen außerdem Feature Swapping (F-SWAP) vor – bei dem wir während des Trainings zufällig objektbezogene Merkmale austauschen, um ein VQA-Modell domäneninvarianter zu machen. Wir zeigen, dass F-SWAP wirksam ist, um einen derzeit bestehenden VQA-Datensatz realer Bilder zu erweitern, ohne Abstriche bei der Genauigkeit beim Beantworten bestehender Fragen im Datensatz zu machen.

Details

Anmerkung: Accepted to CVPR 2022. Camera-Ready version. Project page: https://simvqa.github.io/

Zitation

@inproceedings{cascantebonilla2022simvqa,
  title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
  author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
  year = {2022},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
  url = {https://arxiv.org/abs/2203.17219},
}