SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla; Hui Wu; Letao Wang; Rogerio Feris; Vicente Ordonez

← torna alle pubblicazioni

publication

SimVQA: Exploring Simulated Environments for Visual Question Answering.

Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2022. New Orleans, LA.

articolo project page pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

Ricercatori di Rice University, MIT-IBM Watson AI Lab e University of Virginia hanno trovato un modo per usare immagini sintetiche generate al computer per insegnare ai sistemi di visual question-answering (VQA) competenze che faticano ad apprendere dalle sole fotografie del mondo reale. Il problema centrale affrontato dal team è che costruire grandi dataset VQA a partire da immagini reali è costoso, solleva problemi di privacy e limita la varietà di scenari da cui un modello può apprendere. Per aggirare questo ostacolo, i ricercatori hanno costruito due nuovi dataset sintetici — Hypersim-VQA e ThreeDWorld-VQA — ampliando un dataset esistente di scene 3D fotorealistiche e usando una piattaforma di simulazione fisica per generare automaticamente immagini abbinate a insiemi di domande e risposte che coprono conteggio, colore, esistenza degli oggetti e relazioni spaziali. I loro esperimenti hanno mostrato che un modello VQA addestrato del tutto senza domande di conteggio provenienti da dati reali poteva comunque imparare a contare oggetti in immagini reali quando, durante l'addestramento, gli venivano forniti solo esempi sintetici di conteggio, dimostrando un trasferimento significativo nonostante il notevole divario visivo tra immagini renderizzate e fotografiche. Il team ha inoltre sviluppato una tecnica chiamata Feature Swapping (F-SWAP), che evita gli approcci tradizionali di adattamento del dominio come l'addestramento avversario semplicemente scambiando le rappresentazioni delle caratteristiche a livello di oggetto tra immagini reali e sintetiche durante l'addestramento. Questo metodo ha superato alternative più complesse, tra cui l'adattamento avversario del dominio e l'allineamento tramite Maximum Mean Discrepancy, evitando al contempo l'instabilità associata all'addestramento avversario generativo. Il lavoro è importante perché offre una via relativamente economica e sicura per la privacy per ampliare i dati di addestramento dell'IA e suggerisce che gli ambienti sintetici potrebbero svolgere un ruolo pratico nel colmare le lacune dei dataset del mondo reale per i sistemi di IA multimodale.

abstract

I lavori esistenti sul VQA esplorano la data augmentation per ottenere una migliore generalizzazione perturbando le immagini del dataset o modificando le domande e le risposte esistenti. Sebbene questi metodi mostrino buone prestazioni, la diversità delle domande e delle risposte è vincolata dall'insieme di immagini disponibile. In questo lavoro esploriamo l'uso di dati sintetici generati al computer per controllare completamente lo spazio visivo e linguistico, consentendoci di fornire scenari più diversificati. Quantifichiamo l'effetto dei dati sintetici nei benchmark VQA del mondo reale e in che misura essi producano risultati che generalizzano ai dati reali. Sfruttando piattaforme di simulazione 3D e fisica, forniamo una pipeline per generare dati sintetici al fine di ampliare e sostituire domande e risposte specifiche per tipo senza rischiare l'esposizione di dati sensibili o personali eventualmente presenti nelle immagini reali. Offriamo un'analisi completa ampliando al contempo i dataset iperrealistici esistenti affinché possano essere usati per il VQA. Proponiamo inoltre il Feature Swapping (F-SWAP) — in cui scambiamo casualmente le caratteristiche a livello di oggetto durante l'addestramento per rendere un modello VQA più invariante rispetto al dominio. Mostriamo che F-SWAP è efficace nel potenziare un dataset VQA di immagini reali già esistente senza compromettere l'accuratezza nel rispondere alle domande presenti nel dataset.

dettagli

commento: Accepted to CVPR 2022. Camera-Ready version. Project page: https://simvqa.github.io/

citazione

@inproceedings{cascantebonilla2022simvqa,
  title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
  author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
  year = {2022},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
  url = {https://arxiv.org/abs/2203.17219},
}