Learning from Synthetic Data for Visual Grounding

Ruozhen He; Paola Cascante-Bonilla; Ziyan Yang; Alexander C. Berg; Vicente Ordonez

← torna alle pubblicazioni

publication

Learning from Synthetic Data for Visual Grounding

Ruozhen He, Paola Cascante-Bonilla, Ziyan Yang, Alexander C. Berg, Vicente Ordonez.

British Machine Vision Conference. BMVC 2025. Sheffield, UK.

articolo project page pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Rice University, della University of Maryland e di UC Irvine hanno sviluppato una pipeline chiamata SynGround che genera automaticamente grandi volumi di dati di addestramento sintetici per aiutare i sistemi di IA a collegare meglio le descrizioni testuali a regioni specifiche all'interno delle immagini, un compito noto come grounding visivo. La sfida affrontata è che, mentre le coppie immagine-testo possono essere raccolte dal web su larga scala, le annotazioni a livello di regione necessarie per il grounding (i bounding box che collegano frasi ad aree dell'immagine) sono costose e lente da produrre manualmente; il dataset Visual Genome, un benchmark standard, ha richiesto 33.000 lavoratori per sei mesi per essere costruito. SynGround aggira questo collo di bottiglia concatenando diversi modelli preaddestrati esistenti: un grande modello multimodale (LLaVA) descrive in dettaglio immagini reali, tali descrizioni vengono fornite a un generatore text-to-image (Stable Diffusion) per creare immagini sintetiche, un LLM (Vicuna) estrae brevi sintagmi nominali dalle didascalie e un rilevatore di oggetti a vocabolario aperto (GLIP) traccia i bounding box attorno agli oggetti menzionati nelle immagini sintetiche. Attraverso esperimenti sistematici, il team ha scoperto che le didascalie dettagliate delle immagini producono immagini sintetiche di gran lunga migliori per questo compito rispetto alla semplice concatenazione di testo o ai riassunti generati da LLM, e che le frasi estratte più brevi funzionano meglio di quelle più lunghe. Quando utilizzata per il fine-tuning di due modelli visione-linguaggio pronti all'uso, ALBEF e BLIP, SynGround ha migliorato l'accuratezza di localizzazione rispettivamente di 4,81 e 17,11 punti percentuali sui benchmark RefCOCO+ e Flickr30k; combinare i dati sintetici con dati reali annotati ha spinto le prestazioni ancora più in alto, superando il precedente stato dell'arte. Il lavoro ha inoltre dimostrato che l'approccio può funzionare con una dipendenza minima dalle immagini reali e scala favorevolmente con una maggiore quantità di dati, suggerendo che le pipeline sintetiche automatizzate potrebbero diventare un sostituto pratico della costosa annotazione umana nell'addestramento dei sistemi di grounding.

abstract

Questo articolo indaga in modo approfondito l'efficacia dei dati di addestramento sintetici nel migliorare le capacità dei modelli visione-linguaggio nell'ancorare descrizioni testuali a regioni dell'immagine. Esploriamo varie strategie per generare al meglio coppie immagine-testo e triplette immagine-testo-box utilizzando una serie di modelli preaddestrati in diverse configurazioni e con vari gradi di dipendenza dai dati reali. Attraverso analisi comparative con dati sintetici, reali e raccolti dal web, identifichiamo i fattori che contribuiscono alle differenze di prestazione e proponiamo SynGround, una pipeline efficace per generare dati sintetici utili al grounding visivo. I nostri risultati mostrano che SynGround può migliorare le capacità di localizzazione di modelli visione-linguaggio pronti all'uso e offre il potenziale per una generazione di dati su scala arbitrariamente grande. In particolare, i dati generati con SynGround migliorano l'accuratezza del pointing game di modelli preaddestrati ALBEF e BLIP rispettivamente di 4.81% e 17.11% punti percentuali assoluti, sui benchmark RefCOCO+ e Flickr30k.

dettagli

commento: Project Page: https://catherine-r-he.github.io/SynGround/

citazione

@inproceedings{he2025learning,
  title = {Learning from Synthetic Data for Visual Grounding},
  author = {He, Ruozhen and Cascante-Bonilla, Paola and Yang, Ziyan and Berg, Alexander C. and Ordonez, Vicente},
  year = {2025},
  booktitle = {British Machine Vision Conference. BMVC 2025},
  url = {https://arxiv.org/abs/2403.13804},
}

domande, principali contributi e limiti di questo articolo generati automaticamente

Domande a cui questo articolo aiuta a rispondere

Cos'è SynGround e quale problema affronta? SynGround è una pipeline di dati sintetici per il grounding visivo che genera triplette immagine-testo-box per ridurre la dipendenza dalle costose annotazioni umane delle regioni.
Come genera SynGround i dati di addestramento? Utilizza un modello di descrizione delle immagini per produrre didascalie dettagliate, un generatore text-to-image per sintetizzare immagini, un LLM per estrarre brevi frasi di grounding e un rilevatore a vocabolario aperto per produrre i box per tali frasi.
Perché le didascalie dettagliate sono importanti nella pipeline? Gli esperimenti mostrano che le didascalie Image2Text dettagliate producono immagini sintetiche più utili per il grounding rispetto alla semplice concatenazione di didascalie o ai riassunti Text2Text.
Quanto migliora SynGround il grounding visivo? I dati sintetici di SynGround migliorano ALBEF di 4,81 punti percentuali e BLIP di 17,11 punti percentuali in media nelle valutazioni di pointing game su RefCOCO+ e Flickr30k.
SynGround può ridurre la dipendenza dalle immagini reali? Sì, l'articolo riporta varianti con una dipendenza molto minore dalle immagini reali e mostra che i dati sintetici superano dati comparabili raccolti dal web per il grounding visivo.

Principali contributi

L'articolo fornisce uno studio sistematico su come sintetizzare dati immagine-testo e immagine-testo-box utili per il grounding visivo, anziché limitarsi a dimostrare un'unica ricetta di dati sintetici.
SynGround combina potenti modelli preaddestrati per captioning, generazione di immagini, estrazione di frasi e rilevamento a vocabolario aperto in una pipeline pratica per una supervisione del grounding scalabile.
Gli esperimenti identificano scelte progettuali concrete che contano, incluse le descrizioni dettagliate delle immagini per la generazione e le frasi estratte più brevi per la supervisione del grounding.
L'articolo mostra che le triplette sintetiche possono migliorare due diversi modelli visione-linguaggio, ALBEF e BLIP, a sostegno della generalità dell'approccio oltre una singola architettura.
Il confronto con i dati di Conceptual Captions raccolti dal web mostra che dati sintetici mirati possono essere più efficaci per il grounding rispetto al semplice scaling di dati immagine-testo generici.

Limiti e avvertenze

SynGround eredita alcune limitazioni dai sistemi di captioning, dai generatori di immagini, dagli LLM e dai rilevatori preaddestrati che utilizza, ma ciò significa anche che la pipeline può migliorare naturalmente man mano che tali modelli componenti diventano più potenti.
I box e le didascalie sintetiche non eguagliano pienamente la precisione e la diversità delle annotazioni umane di Visual Genome, eppure i guadagni di prestazione mostrano che sono già abbastanza utili da ridurre sostanzialmente la pressione sull'annotazione.
Alcune persone o scene generate possono contenere artefatti visivi, un problema noto per la generazione di immagini sintetiche; i miglioramenti nel grounding suggeriscono che la pipeline rimane efficace nonostante i campioni occasionalmente imperfetti.
Lo studio si concentra principalmente sul grounding visivo in stile pointing game con ALBEF e BLIP, lasciando i sistemi di predizione frase-box e le architetture multimodali più recenti come promettenti obiettivi di follow-up.
La pipeline ha molteplici stadi e scelte progettuali, ma gli studi di ablazione dell'articolo rendono tali scelte interpretabili e forniscono una solida ricetta pratica per futuri dataset di grounding sintetico.

Come interpretare questo risultato

Questo articolo si legge al meglio come una solida argomentazione empirica a favore della supervisione sintetica nel grounding visivo: SynGround mostra che triplette immagine-testo-box generate con cura possono migliorare in modo significativo la localizzazione, integrare i dati reali e offrire una via scalabile oltre la costosa annotazione umana delle regioni.