Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He; Nisarg A. Shah; Qihua Dong; Zilin Xiao; Jaywon Koo; Vicente Ordonez

← zurück zu den Publikationen

preprint

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez

arxiv:2604.02323

Artikel pdf BibTeX-Quelltext

Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forschende der Rice University, der Johns Hopkins University und der Northeastern University haben eine bedeutende Lücke in der Art und Weise identifiziert, wie visuelle KI-Systeme getestet werden: Standard-Benchmarks für „visuelles Grounding“ – die Fähigkeit, eine Textbeschreibung einer Region in einem Bild zuzuordnen – verwenden typischerweise kurze, wörtliche Formulierungen wie „der braune Lederhandschuh, den der Fänger hält“, die Modelle oft einfach dadurch lösen können, dass sie eine benannte Objektkategorie erkennen. Um zu prüfen, ob Modelle mit realistischerer, umständlicherer Sprache umgehen können, baute das Team einen neuen Benchmark namens Referring Scenario Comprehension (RSC), bei dem jede Anfrage eine absatzlange Beschreibung aus der Perspektive einer Nutzerin oder eines Nutzers ist – zum Beispiel die Beschreibung einer Person, die an einer Bushaltestelle die Uhrzeit ablesen will, ohne das Wort „Uhr“ jemals zu erwähnen. Der Benchmark enthält rund 38.000 annotierte Beispiele, die aus MS-COCO- und LVIS-Bildern stammen, umfasst einen zurückgehaltenen Testdatensatz mit gänzlich ungesehenen Objektkategorien und versieht jede Instanz mit Tags entlang von fünf Schwierigkeitsachsen, die Unordnung, Objektgröße, Überlappung, Position und die Frage abdecken, ob die Zielkategorie mehrfach in der Szene vorkommt. Als das Team eine Reihe aktueller Vision-Language-Modelle auf RSC evaluierte – darunter GPT-4o, Claude 3.7 und mehrere Open-Source-Systeme –, hatten alle erhebliche Schwierigkeiten, wobei selbst das beste handelsübliche Modell eine Lokalisierungsgenauigkeit von deutlich unter 30 % erreichte, verglichen mit über 60 % für das eigens entwickelte System der Autoren. Dieses System namens ScenGround kombiniert überwachtes Fine-Tuning auf leichteren Beispielen, um ein Argumentationsschema zu etablieren, mit einer Reinforcement-Learning-Phase, die dem Modell schrittweise schwierigere, mehrdeutigere Fälle zuführt. Die Arbeit ist von Bedeutung, weil sie zeigt, dass beeindruckende Werte auf bestehenden Grounding-Benchmarks die nahezu vollständige Unfähigkeit eines Modells verschleiern können, mit jener indirekten, zielgerichteten Sprache umzugehen, die Menschen natürlicherweise verwenden, wenn sie beschreiben, was sie benötigen.

Zusammenfassung

Bestehende Benchmarks für visuelles Grounding evaluieren in erster Linie die Übereinstimmung zwischen Bildregionen und wörtlichen referierenden Ausdrücken, bei denen Modelle oft schon dadurch erfolgreich sein können, dass sie eine markante benannte Kategorie zuordnen. Wir untersuchen eine ergänzende und anspruchsvollere Einstellung des szenariobasierten visuellen Groundings, bei der das Ziel aus Rollen, Absichten und relationalem Kontext erschlossen werden muss statt aus expliziter Benennung. Wir führen Referring Scenario Comprehension (RSC) ein, einen für diese Einstellung konzipierten Benchmark. Die Anfragen in diesem Benchmark sind absatzlange Texte, die Objektrollen, Nutzerziele und kontextuelle Hinweise beschreiben, einschließlich bewusster Verweise auf Ablenkungsobjekte, die häufig ein tiefes Verständnis zur Auflösung erfordern. Jede Instanz ist mit interpretierbaren Schwierigkeits-Tags für Eindeutigkeit, Unordnung, Größe, Überlappung und Position annotiert, die unterschiedliche Fehlermodi offenlegen und eine feingranulare Analyse unterstützen. RSC enthält etwa 31.000 Trainingsbeispiele, 4.000 In-Domain-Testbeispiele und einen 3.000 Beispiele umfassenden Out-of-Distribution-Split mit ungesehenen Objektkategorien. Wir schlagen darüber hinaus ScenGround vor, eine Curriculum-Reasoning-Methode, die als Referenzpunkt für diese Einstellung dient und überwachtes Warm-Starting mit schwierigkeitsbewusstem Reinforcement Learning kombiniert. Experimente zeigen, dass szenariobasierte Anfragen systematische Schwächen aktueller Modelle offenlegen, die Standard-Benchmarks nicht aufdecken, und dass Curriculum-Training die Leistung auf anspruchsvollen Teilmengen verbessert und sich auf Standard-Benchmarks überträgt.

Details

Anmerkung: 20 pages, 18 figures, Project Page: https://catherine-r-he.github.io/RSC/

Zitation

@article{hebeyond,
  title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
  author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
  journal = {arxiv:2604.02323},
  url = {https://arxiv.org/abs/2604.02323},
}

automatisch generierte Fragen, wichtigste Beiträge und Grenzen dieses Artikels

Fragen, die dieser Artikel beantworten hilft

Was ist RSC und wie unterscheidet es sich von Benchmarks wie RefCOCO? RSC ersetzt kurze, wörtliche referierende Formulierungen durch absatzlange Szenario-Anfragen, die eine Nutzerrolle, ein Ziel und mindestens drei disambiguierende Hinweise beschreiben und gezielt Ablenkungsobjekte benennen; Modelle müssen sowohl die Zielkategorie als auch eine Bounding Box vorhersagen, ohne dass ihnen der Kategoriename in der Anfrage genannt wird.
Wie schneiden aktuelle State-of-the-Art-Modelle auf RSC ab? Closed-Source-Modelle wie GPT-4o und Claude 3.7 erreichen eine hohe Kategoriengenauigkeit, aber eine sehr niedrige Lokalisierungsgenauigkeit auf RSC, wobei GPT-4o nur 13,23 Prozent Acc@0.5 auf dem In-Domain-Split erreicht, während die vorgeschlagene Methode ScenGround 60,90 Prozent Acc@0.5 auf demselben Split erreicht.
Was ist ScenGround und wie funktioniert es? ScenGround ist eine zweistufige Curriculum-Trainingsmethode, die auf Qwen2.5-VL-7B aufbaut: Stufe 1 ist ein überwachter Fine-Tuning-Schritt auf leichteren RSC-Teilmengen, um das Modell an das Argumentationsschema anzupassen, und Stufe 2 wendet schwierigkeitsbewusstes GRPO-Reinforcement-Learning mit geformten IoU- und alias-bewussten Kategorienbelohnungen an und sampelt dabei schrittweise schwierigere Instanzen.
Überträgt sich das Training auf RSC auf Standard-Benchmarks für referierende Ausdrücke? Ja, die GRPO-Stufe von ScenGround verbessert Acc@0.5 auf der RefCOCO+-Validierung von 52,54 auf 70,16 Prozent und auf der RefCOCOg-Validierung von 52,46 auf 78,19 Prozent bei Verwendung desselben benutzerdefinierten Prompts, was darauf hindeutet, dass das Curriculum übertragbare Disambiguierungsfähigkeiten entwickelt.
Was prüft der Out-of-Distribution-Split und was zeigen die Ergebnisse? Der OOD-Split verwendet LVIS-Kategorien ohne Überschneidung mit den COCO-Trainingskategorien und testet damit die kategorienübergreifende Generalisierung; ScenGround erreicht 38,11 Prozent Acc@0.5 auf OOD gegenüber 15,88 Prozent für das Basismodell Qwen2.5-VL, doch die OOD-Kategorienbenennungsgenauigkeit bleibt nahe der Baseline, was darauf hindeutet, dass das räumliche Grounding unter Kategorienverschiebung besser generalisiert als die semantische Benennung.

Wichtigste Beiträge

RSC führt szenariobasierte Anfragen für visuelles Grounding mit durchschnittlich 52,7 Wörtern ein, mehr als sechsmal länger als RefCOCO-Anfragen, mit Schwierigkeits-Tags pro Instanz über fünf Achsen, Annotationen von Argumentationsspuren pro Instanz und einem strikt disjunkten Out-of-Distribution-Testsplit, der aus LVIS stammt.
Der Benchmark legt einen systematischen Fehlermodus aktueller Vision-Language-Modelle offen: Modelle mit starkem Kategorienverständnis neigen zu schlechter Lokalisierung, und Modelle mit starken Detektionsfähigkeiten fehlt das semantische Reasoning, das für szenariobasierte Anfragen erforderlich ist.
ScenGround zeigt, dass ein Tag-bewusstes Curriculum, das überwachtes Warm-Starting mit schwierigkeitsprogressivem Reinforcement Learning kombiniert, sowohl die In-Domain- als auch die Out-of-Distribution-Lokalisierung erheblich verbessert und den mIoU auf RSC-ID für das Basismodell von 30,31 auf 55,68 anhebt.
Eine menschliche Prüfung von 300 Instanzen durch drei Annotierende ergab eine Mehrheitsentscheidungs-Genauigkeit von 95,7 Prozent mit einem Fleiss-Kappa von 0,94, was die Verlässlichkeit der Benchmark-Annotationen stützt.
Die Arbeit liefert eine kontrollierte Ablation, die zeigt, dass die Curriculum-Reihenfolge von Bedeutung ist: Das Mischen leichter und schwieriger Instanzen in einer einzigen GRPO-Stufe führt zu geringerer Leistung als das zweistufige Curriculum von leicht zu schwer, in Übereinstimmung mit der von den Autoren angebotenen Erklärung der Belohnungssparsität.

Grenzen und Vorbehalte

Die Out-of-Distribution-Kategorienbenennungsgenauigkeit von ScenGround liegt noch nahe der untrainierten Baseline, was die semantische Benennung nützlicherweise vom räumlichen Grounding trennt; die starken Lokalisierungsgewinne deuten darauf hin, dass das Curriculum bereits einen wichtigen Teil des schwierigeren Problems der Szenarioverständnisses verbessert.
RSC verwendet GPT-4o zur Erzeugung von Szenarien und Gemini-2.5-Pro als Qualitätsbewerter, wobei eine menschliche Prüfung eine gesampelte Teilmenge validiert; eine umfassendere menschliche Überprüfung könnte den Benchmark weiter stärken, doch die berichtete Mehrheitsentscheidungs-Genauigkeit von 95,7 Prozent und die hohe Übereinstimmung liefern beruhigende Belege dafür, dass die Annotationen verlässlich sind.
RSC konzentriert sich derzeit auf statisches, einobjektiges, exozentrisches Grounding, was den Benchmark präzise und analysierbar macht; multi-objektives, zeitliches und interaktives Grounding sind natürliche Erweiterungen, die auf derselben Idee des Szenarioverständnisses aufbauen.
Der Vergleich mit Grounding DINO verwendet Orakel-Kategorieneingaben, sodass er am besten als informative Obergrenzen-Referenz statt als direkter Bereitstellungsvergleich zu lesen ist; dies hilft dennoch zu verdeutlichen, wie viel der Herausforderung aus dem Szenarioverständnis gegenüber der Objektlokalisierung stammt.
Der Benchmark ist aus natürlichen Bildern von MS-COCO und LVIS aufgebaut, sodass andere Domänen wie medizinische Bilder, GUIs und Satellitenbilder künftigen Studien überlassen bleiben; innerhalb der gewählten Domäne offenbaren der In-Domain- und der Out-of-Distribution-Split bereits eine aussagekräftige Evaluationslücke.

Wie dieses Ergebnis zu lesen ist

Diese Arbeit ist am besten als ein starker und zeitgemäßer Beitrag zum visuellen Grounding zu lesen: Sie definiert eine realistische Herausforderung des Szenarioverständnisses, untermauert sie mit einem sorgfältig validierten Benchmark und kontrollierten Experimenten und zeigt, dass Curriculum-Reasoning die Lokalisierung erheblich verbessern kann, während es zugleich reiche Möglichkeiten für künftige Generalisierungsarbeiten offenlässt.