Learning from Synthetic Data for Visual Grounding

Ruozhen He; Paola Cascante-Bonilla; Ziyan Yang; Alexander C. Berg; Vicente Ordonez

← retour aux publications

publication

Learning from Synthetic Data for Visual Grounding

Ruozhen He, Paola Cascante-Bonilla, Ziyan Yang, Alexander C. Berg, Vicente Ordonez.

British Machine Vision Conference. BMVC 2025. Sheffield, UK.

article project page pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'université Rice, de l'université du Maryland et de l'UC Irvine ont mis au point un pipeline appelé SynGround qui génère automatiquement de grands volumes de données d'entraînement synthétiques pour aider les systèmes d'IA à mieux relier les descriptions textuelles à des régions spécifiques au sein des images, une tâche connue sous le nom d'ancrage visuel. Le défi qu'ils ont relevé est que, si les paires image-texte peuvent être collectées sur le web à grande échelle, les annotations au niveau des régions nécessaires à l'ancrage (des boîtes englobantes qui relient des expressions à des zones de l'image) sont coûteuses et lentes à produire à la main ; le jeu de données Visual Genome, un banc d'essai standard, a nécessité six mois de travail à 33 000 personnes. SynGround contourne ce goulot d'étranglement en enchaînant plusieurs modèles pré-entraînés existants : un grand modèle multimodal (LLaVA) légende des images réelles en détail, ces descriptions sont fournies à un générateur texte-vers-image (Stable Diffusion) pour créer des images synthétiques, un LLM (Vicuna) extrait de courts groupes nominaux des légendes, et un détecteur d'objets à vocabulaire ouvert (GLIP) trace des boîtes englobantes autour des objets référencés dans les images synthétiques. Au moyen d'expériences systématiques, l'équipe a constaté que des légendes d'images détaillées produisent de bien meilleures images synthétiques pour cette tâche qu'une simple concaténation de texte ou des résumés générés par LLM, et que des expressions extraites plus courtes fonctionnent mieux que des plus longues. Utilisé pour affiner deux modèles vision-langage prêts à l'emploi, ALBEF et BLIP, SynGround a amélioré la précision de localisation de respectivement 4,81 et 17,11 points de pourcentage sur les bancs d'essai RefCOCO+ et Flickr30k ; combiner les données synthétiques avec des données réelles annotées a poussé les performances encore plus haut, surpassant l'état de l'art précédent. Le travail a également montré que l'approche peut fonctionner avec une dépendance minimale aux images réelles et passe favorablement à l'échelle avec davantage de données, suggérant que les pipelines synthétiques automatisés pourraient devenir un substitut pratique à l'annotation humaine coûteuse pour l'entraînement de systèmes d'ancrage.

résumé

Cet article examine de manière approfondie l'efficacité des données d'entraînement synthétiques pour améliorer les capacités des modèles vision-langage à ancrer des descriptions textuelles à des régions d'image. Nous explorons diverses stratégies pour générer au mieux des paires image-texte et des triplets image-texte-boîte à l'aide d'une série de modèles pré-entraînés selon différentes configurations et différents degrés de dépendance aux données réelles. Au moyen d'analyses comparatives entre données synthétiques, réelles et issues du web, nous identifions les facteurs qui contribuent aux différences de performance, et proposons SynGround, un pipeline efficace pour générer des données synthétiques utiles à l'ancrage visuel. Nos résultats montrent que SynGround peut améliorer les capacités de localisation de modèles vision-langage prêts à l'emploi et offre le potentiel d'une génération de données à une échelle arbitrairement grande. En particulier, les données générées avec SynGround améliorent la précision du pointing game de modèles ALBEF et BLIP pré-entraînés de respectivement 4,81 % et 17,11 % en points de pourcentage absolus, sur les bancs d'essai RefCOCO+ et Flickr30k.

détails

commentaire: Project Page: https://catherine-r-he.github.io/SynGround/

citation

@inproceedings{he2025learning,
  title = {Learning from Synthetic Data for Visual Grounding},
  author = {He, Ruozhen and Cascante-Bonilla, Paola and Yang, Ziyan and Berg, Alexander C. and Ordonez, Vicente},
  year = {2025},
  booktitle = {British Machine Vision Conference. BMVC 2025},
  url = {https://arxiv.org/abs/2403.13804},
}

questions, principales contributions et limites de cet article générées automatiquement

Questions auxquelles cet article aide à répondre

Qu'est-ce que SynGround et quel problème résout-il ? SynGround est un pipeline de données synthétiques pour l'ancrage visuel qui génère des triplets image-texte-boîte afin de réduire la dépendance aux coûteuses annotations humaines de régions.
Comment SynGround génère-t-il les données d'entraînement ? Il utilise un modèle de description d'images pour produire des légendes détaillées, un générateur texte-vers-image pour synthétiser des images, un LLM pour extraire de courtes expressions d'ancrage et un détecteur à vocabulaire ouvert pour produire des boîtes pour ces expressions.
Pourquoi les légendes détaillées sont-elles importantes dans le pipeline ? Les expériences montrent que des légendes Image2Text détaillées produisent des images synthétiques plus utiles pour l'ancrage qu'une simple concaténation de légendes ou des résumés Text2Text.
Dans quelle mesure SynGround améliore-t-il l'ancrage visuel ? Les données synthétiques de SynGround améliorent ALBEF de 4,81 points de pourcentage et BLIP de 17,11 points de pourcentage en moyenne sur les évaluations de pointing game RefCOCO+ et Flickr30k.
SynGround peut-il réduire la dépendance aux images réelles ? Oui, l'article rapporte des variantes avec une dépendance bien moindre aux images réelles et montre que les données synthétiques surpassent des données comparables issues du web pour l'ancrage visuel.

Principales contributions

L'article fournit une étude systématique sur la manière de synthétiser des données image-texte et image-texte-boîte utiles à l'ancrage visuel, plutôt que de se contenter de démontrer une seule recette de données synthétiques.
SynGround combine de solides modèles pré-entraînés pour le légendage, la génération d'images, l'extraction d'expressions et la détection à vocabulaire ouvert en un pipeline pratique pour une supervision d'ancrage passant à l'échelle.
Les expériences identifient des choix de conception concrets qui comptent, notamment des descriptions d'images détaillées pour la génération et des expressions extraites plus courtes pour la supervision de l'ancrage.
L'article montre que les triplets synthétiques peuvent améliorer deux modèles vision-langage différents, ALBEF et BLIP, soutenant la généralité de l'approche au-delà d'une seule architecture.
La comparaison avec les données issues du web de Conceptual Captions montre que des données synthétiques ciblées peuvent être plus efficaces pour l'ancrage que la simple mise à l'échelle de données image-texte génériques.

Limites et mises en garde

SynGround hérite de certaines limitations des modèles pré-entraînés de légendage, des générateurs d'images, des LLM et des détecteurs qu'il utilise, mais cela signifie aussi que le pipeline peut s'améliorer naturellement à mesure que ces modèles composants se renforcent.
Les boîtes et légendes synthétiques n'égalent pas pleinement la précision et la diversité des annotations humaines de Visual Genome, mais les gains de performance montrent qu'elles sont déjà suffisamment utiles pour réduire substantiellement la pression liée à l'annotation.
Certaines personnes ou scènes générées peuvent contenir des artefacts visuels, ce qui est un problème connu de la génération d'images synthétiques ; les améliorations d'ancrage suggèrent que le pipeline reste efficace malgré des échantillons occasionnellement imparfaits.
L'étude se concentre principalement sur l'ancrage visuel de type pointing game avec ALBEF et BLIP, laissant les systèmes de prédiction expression-boîte et les architectures multimodales plus récentes comme cibles de suivi prometteuses.
Le pipeline comporte plusieurs étapes et choix de conception, mais les ablations de l'article rendent ces choix interprétables et fournissent une solide recette pratique pour de futurs jeux de données d'ancrage synthétiques.

Comment interpréter ce résultat

Cet article se lit avant tout comme une solide démonstration empirique en faveur de la supervision synthétique pour l'ancrage visuel : SynGround montre que des triplets image-texte-boîte soigneusement générés peuvent améliorer de manière significative la localisation, augmenter les données réelles et offrir une voie passant à l'échelle au-delà de la coûteuse annotation humaine de régions.