Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He; Nisarg A. Shah; Qihua Dong; Zilin Xiao; Jaywon Koo; Vicente Ordonez

← retour aux publications

preprint

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez

arxiv:2604.02323

article pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de Rice University, de Johns Hopkins University et de Northeastern University ont identifié une lacune importante dans la manière dont les systèmes d'IA visuelle sont évalués : les bancs d'essai standards d'« ancrage visuel » — la capacité de faire correspondre une description textuelle à une région d'une image — utilisent généralement des phrases courtes et littérales comme « le gant en cuir marron tenu par le receveur », que les modèles peuvent souvent résoudre simplement en reconnaissant une catégorie d'objet nommée. Pour tester en profondeur si les modèles peuvent gérer un langage plus réaliste et détourné, l'équipe a construit un nouveau banc d'essai appelé Referring Scenario Comprehension (RSC), où chaque requête est une description de la longueur d'un paragraphe rédigée du point de vue d'un utilisateur — par exemple, décrivant quelqu'un qui essaie de vérifier l'heure à un arrêt de bus sans jamais mentionner le mot « horloge ». Le banc d'essai contient environ 38 000 exemples annotés tirés d'images MS-COCO et LVIS, comprend un ensemble de test mis de côté avec des catégories d'objets entièrement inédites, et étiquette chaque instance selon cinq axes de difficulté couvrant l'encombrement, la taille des objets, le chevauchement, la position et le fait que la catégorie cible apparaisse plusieurs fois dans la scène. Lorsque l'équipe a évalué une gamme de modèles de vision-langage actuels sur RSC — dont GPT-4o, Claude 3.7 et plusieurs systèmes open source — tous ont rencontré de grandes difficultés, le meilleur modèle prêt à l'emploi obtenant une précision de localisation bien inférieure à 30 %, contre plus de 60 % pour le système conçu sur mesure par les auteurs. Ce système, appelé ScenGround, combine un ajustement supervisé sur des exemples plus faciles pour établir un schéma de raisonnement avec une étape d'apprentissage par renforcement qui alimente progressivement le modèle en cas plus difficiles et plus ambigus. Ce travail est important car il démontre que des scores impressionnants sur les bancs d'essai d'ancrage existants peuvent masquer l'incapacité quasi totale d'un modèle à gérer le type de langage indirect et orienté vers un but que les gens utilisent naturellement pour décrire ce dont ils ont besoin.

résumé

Les bancs d'essai existants d'ancrage visuel évaluent principalement l'alignement entre les régions d'image et les expressions référentielles littérales, où les modèles peuvent souvent réussir en faisant correspondre une catégorie nommée de premier plan. Nous explorons un contexte complémentaire et plus exigeant d'ancrage visuel fondé sur des scénarios, où la cible doit être déduite à partir des rôles, des intentions et du contexte relationnel plutôt que d'une dénomination explicite. Nous présentons Referring Scenario Comprehension (RSC), un banc d'essai conçu pour ce contexte. Les requêtes de ce banc d'essai sont des textes de la longueur d'un paragraphe qui décrivent les rôles des objets, les objectifs de l'utilisateur et les indices contextuels, y compris des références délibérées à des objets distracteurs dont la résolution nécessite souvent une compréhension approfondie. Chaque instance est annotée à l'aide d'étiquettes de difficulté interprétables relatives à l'unicité, à l'encombrement, à la taille, au chevauchement et à la position, qui exposent des modes d'échec distincts et permettent une analyse fine. RSC contient environ 31 k exemples d'entraînement, 4 k exemples de test en domaine et une partition hors distribution de 3 k comportant des catégories d'objets inédites. Nous proposons en outre ScenGround, une méthode de raisonnement par curriculum servant de point de référence pour ce contexte, qui combine un amorçage supervisé avec un apprentissage par renforcement tenant compte de la difficulté. Les expériences montrent que les requêtes fondées sur des scénarios révèlent des échecs systématiques dans les modèles actuels que les bancs d'essai standards ne mettent pas en évidence, et que l'entraînement par curriculum améliore les performances sur les tranches difficiles et se transfère aux bancs d'essai standards.

détails

commentaire: 20 pages, 18 figures, Project Page: https://catherine-r-he.github.io/RSC/

citation

@article{hebeyond,
  title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
  author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
  journal = {arxiv:2604.02323},
  url = {https://arxiv.org/abs/2604.02323},
}

questions, principales contributions et limites de cet article générées automatiquement

Questions auxquelles cet article aide à répondre

Qu'est-ce que RSC et en quoi diffère-t-il de bancs d'essai comme RefCOCO ? RSC remplace les courtes expressions référentielles littérales par des requêtes de scénario de la longueur d'un paragraphe qui décrivent un rôle d'utilisateur, un objectif et au moins trois indices de désambiguïsation, et nomment délibérément des objets distracteurs ; les modèles doivent prédire à la fois la catégorie cible et une boîte englobante sans que le nom de la catégorie ne soit indiqué dans la requête.
Comment les modèles de pointe actuels se comportent-ils sur RSC ? Les modèles à code fermé comme GPT-4o et Claude 3.7 atteignent une précision de catégorie élevée mais une précision de localisation très faible sur RSC, GPT-4o n'atteignant que 13,23 pour cent d'Acc@0,5 sur la partition en domaine, tandis que la méthode ScenGround proposée atteint 60,90 pour cent d'Acc@0,5 sur la même partition.
Qu'est-ce que ScenGround et comment fonctionne-t-il ? ScenGround est une méthode d'entraînement par curriculum en deux étapes bâtie sur Qwen2.5-VL-7B : l'étape 1 est une étape d'ajustement supervisé sur les tranches RSC plus faciles afin d'aligner le modèle sur le schéma de raisonnement, et l'étape 2 applique un apprentissage par renforcement GRPO tenant compte de la difficulté avec des récompenses d'IoU mises en forme et de catégorie tenant compte des alias, en échantillonnant progressivement des instances plus difficiles.
L'entraînement sur RSC se transfère-t-il aux bancs d'essai standards d'expressions référentielles ? Oui, l'étape GRPO de ScenGround améliore l'Acc@0,5 sur la validation RefCOCO+ de 52,54 à 70,16 pour cent et sur la validation RefCOCOg de 52,46 à 78,19 pour cent en utilisant la même invite personnalisée, ce qui suggère que le curriculum développe des compétences de désambiguïsation transférables.
Que teste la partition hors distribution et que montrent les résultats ? La partition OOD utilise des catégories LVIS ne chevauchant pas les catégories d'entraînement COCO, testant la généralisation inter-catégories ; ScenGround atteint 38,11 pour cent d'Acc@0,5 sur l'OOD contre 15,88 pour cent pour le modèle de base Qwen2.5-VL, mais la précision de dénomination des catégories OOD reste proche de la référence, ce qui indique que l'ancrage spatial se généralise mieux que la dénomination sémantique en cas de changement de catégorie.

Principales contributions

RSC introduit des requêtes d'ancrage visuel fondées sur des scénarios comptant en moyenne 52,7 mots, soit plus de six fois plus longues que les requêtes RefCOCO, avec des étiquettes de difficulté par instance selon cinq axes, des annotations de trace de raisonnement par instance et une partition de test hors distribution strictement disjointe tirée de LVIS.
Le banc d'essai expose un mode d'échec systématique dans les modèles de vision-langage actuels : les modèles dotés d'une forte compréhension des catégories tendent à mal localiser, et les modèles dotés de fortes capacités de détection manquent du raisonnement sémantique nécessaire aux requêtes fondées sur des scénarios.
ScenGround démontre qu'un curriculum tenant compte des étiquettes, combinant un amorçage supervisé avec un apprentissage par renforcement progressif selon la difficulté, améliore substantiellement la localisation en domaine et hors distribution, faisant passer le mIoU de 30,31 à 55,68 sur RSC-ID pour le modèle de base.
Un audit humain de 300 instances réparties sur trois annotateurs a donné une précision par vote majoritaire de 95,7 pour cent avec un kappa de Fleiss de 0,94, ce qui confirme la fiabilité des annotations du banc d'essai.
L'article fournit une ablation contrôlée montrant que l'ordre du curriculum importe : mélanger des instances faciles et difficiles dans une seule étape GRPO donne de moins bonnes performances que le curriculum en deux étapes allant du facile au difficile, ce qui est cohérent avec l'explication par la rareté des récompenses avancée par les auteurs.

Limites et mises en garde

La précision de dénomination des catégories hors distribution de ScenGround reste proche de la référence non ajustée, ce qui sépare utilement la dénomination sémantique de l'ancrage spatial ; les forts gains de localisation suggèrent que le curriculum améliore déjà une part importante du problème plus difficile de compréhension de scénarios.
RSC utilise GPT-4o pour générer les scénarios et Gemini-2.5-Pro comme juge de qualité, avec un audit humain validant un sous-ensemble échantillonné ; un examen humain plus large pourrait renforcer davantage le banc d'essai, mais la précision par vote majoritaire de 95,7 pour cent et l'accord élevé rapportés fournissent des preuves rassurantes de la fiabilité des annotations.
RSC se concentre actuellement sur l'ancrage statique, à objet unique et exocentrique, ce qui rend le banc d'essai précis et analysable ; l'ancrage multi-objets, temporel et interactif constitue des extensions naturelles qui s'appuient sur la même idée de compréhension de scénarios.
La comparaison avec Grounding DINO utilise des entrées de catégorie oracles, de sorte qu'elle se lit au mieux comme une référence de borne supérieure informative plutôt que comme une comparaison directe de déploiement ; cela contribue tout de même à clarifier la part du défi provenant de la compréhension du scénario par rapport à la localisation d'objets.
Le banc d'essai est construit à partir d'images naturelles MS-COCO et LVIS, laissant d'autres domaines comme les images médicales, les interfaces graphiques et l'imagerie satellitaire pour des études futures ; au sein de son domaine choisi, les partitions en domaine et hors distribution révèlent déjà un écart d'évaluation significatif.

Comment interpréter ce résultat

Cet article se lit au mieux comme une contribution solide et opportune à l'ancrage visuel : il définit un défi réaliste de compréhension de scénarios, l'étaye par un banc d'essai soigneusement validé et des expériences contrôlées, et montre que le raisonnement par curriculum peut améliorer substantiellement la localisation tout en laissant de riches occasions de travaux futurs sur la généralisation.