Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He; Nisarg A. Shah; Qihua Dong; Zilin Xiao; Jaywon Koo; Vicente Ordonez

← torna alle pubblicazioni

preprint

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez

arxiv:2604.02323

articolo pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Rice University, della Johns Hopkins University e della Northeastern University hanno individuato una lacuna significativa nel modo in cui i sistemi di IA visiva vengono testati: i benchmark standard per il "visual grounding" — la capacità di far corrispondere una descrizione testuale a una regione di un'immagine — utilizzano tipicamente frasi brevi e letterali come "il guantone di pelle marrone tenuto dal ricevitore", che i modelli possono spesso risolvere semplicemente riconoscendo una categoria di oggetto nominata. Per mettere alla prova la capacità dei modelli di gestire un linguaggio più realistico e indiretto, il team ha costruito un nuovo benchmark chiamato Referring Scenario Comprehension (RSC), in cui ogni query è una descrizione lunga un paragrafo scritta dalla prospettiva di un utente — ad esempio, descrivendo qualcuno che cerca di controllare l'ora a una fermata dell'autobus senza mai menzionare la parola "orologio". Il benchmark contiene circa 38.000 esempi annotati tratti da immagini di MS-COCO e LVIS, include un insieme di test riservato con categorie di oggetti del tutto mai viste, ed etichetta ogni istanza lungo cinque assi di difficoltà che coprono l'affollamento, la dimensione dell'oggetto, la sovrapposizione, la posizione e se la categoria bersaglio compaia più volte nella scena. Quando il team ha valutato una serie di modelli vision-language attuali su RSC — tra cui GPT-4o, Claude 3.7 e diversi sistemi open-source — tutti hanno faticato gravemente, con il miglior modello pronto all'uso che ha ottenuto un'accuratezza di localizzazione ben al di sotto del 30%, contro oltre il 60% del sistema appositamente costruito dagli autori. Quel sistema, chiamato ScenGround, combina il fine-tuning supervisionato su esempi più semplici per stabilire uno schema di ragionamento con una fase di Reinforcement Learning che alimenta progressivamente il modello con casi più difficili e ambigui. Il lavoro è importante perché dimostra che punteggi impressionanti sui benchmark di grounding esistenti possono mascherare l'incapacità quasi totale di un modello di gestire quel tipo di linguaggio indiretto e orientato agli obiettivi che le persone usano naturalmente quando descrivono ciò di cui hanno bisogno.

abstract

I benchmark esistenti di visual grounding valutano principalmente l'allineamento tra regioni dell'immagine ed espressioni referenziali letterali, dove i modelli possono spesso avere successo facendo corrispondere una categoria nominata e prominente. Esploriamo un contesto complementare e più impegnativo di visual grounding basato su scenari, in cui il bersaglio deve essere inferito da ruoli, intenzioni e contesto relazionale anziché da una denominazione esplicita. Introduciamo Referring Scenario Comprehension (RSC), un benchmark progettato per questo contesto. Le query in questo benchmark sono testi lunghi un paragrafo che descrivono i ruoli degli oggetti, gli obiettivi dell'utente e gli indizi contestuali, inclusi riferimenti deliberati a oggetti distrattori che spesso richiedono una comprensione profonda per essere risolti. Ogni istanza è annotata con etichette di difficoltà interpretabili per unicità, affollamento, dimensione, sovrapposizione e posizione, che mettono in luce distinte modalità di fallimento e supportano un'analisi a grana fine. RSC contiene circa 31k esempi di addestramento, 4k esempi di test in-domain e una porzione out-of-distribution di 3k con categorie di oggetti mai viste. Proponiamo inoltre ScenGround, un metodo di ragionamento a curriculum che funge da punto di riferimento per questo contesto, combinando un avvio supervisionato con Reinforcement Learning consapevole della difficoltà. Gli esperimenti mostrano che le query basate su scenari mettono in luce fallimenti sistematici nei modelli attuali che i benchmark standard non rivelano, e che l'addestramento a curriculum migliora le prestazioni sulle porzioni impegnative e si trasferisce ai benchmark standard.

dettagli

commento: 20 pages, 18 figures, Project Page: https://catherine-r-he.github.io/RSC/

citazione

@article{hebeyond,
  title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
  author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
  journal = {arxiv:2604.02323},
  url = {https://arxiv.org/abs/2604.02323},
}

domande, principali contributi e limiti di questo articolo generati automaticamente

Domande a cui questo articolo aiuta a rispondere

Che cos'è RSC e in cosa differisce da benchmark come RefCOCO? RSC sostituisce le brevi frasi referenziali letterali con query di scenario lunghe un paragrafo che descrivono un ruolo dell'utente, un obiettivo e almeno tre indizi di disambiguazione, e nominano deliberatamente oggetti distrattori; i modelli devono predire sia la categoria bersaglio sia un bounding box senza che il nome della categoria venga fornito nella query.
Come si comportano gli attuali modelli allo stato dell'arte su RSC? I modelli closed-source come GPT-4o e Claude 3.7 raggiungono un'elevata accuratezza di categoria ma un'accuratezza di localizzazione molto bassa su RSC, con GPT-4o che raggiunge solo il 13,23 percento di Acc@0.5 sulla porzione in-domain, mentre il metodo proposto ScenGround raggiunge il 60,90 percento di Acc@0.5 sulla stessa porzione.
Che cos'è ScenGround e come funziona? ScenGround è un metodo di addestramento a curriculum a due stadi costruito su Qwen2.5-VL-7B: lo Stadio 1 è una fase di fine-tuning supervisionato sulle porzioni più semplici di RSC per allineare il modello allo schema di ragionamento, e lo Stadio 2 applica Reinforcement Learning GRPO consapevole della difficoltà con ricompense di IoU modellate e ricompense di categoria consapevoli degli alias, campionando progressivamente istanze più difficili.
L'addestramento su RSC si trasferisce ai benchmark standard di espressioni referenziali? Sì, la fase GRPO di ScenGround migliora l'Acc@0.5 sulla validazione di RefCOCO+ dal 52,54 al 70,16 percento e sulla validazione di RefCOCOg dal 52,46 al 78,19 percento utilizzando lo stesso prompt personalizzato, suggerendo che il curriculum sviluppa capacità di disambiguazione trasferibili.
Cosa testa la porzione out-of-distribution e cosa mostrano i risultati? La porzione OOD utilizza categorie di LVIS senza alcuna sovrapposizione con le categorie di addestramento di COCO, testando la generalizzazione tra categorie; ScenGround raggiunge il 38,11 percento di Acc@0.5 su OOD rispetto al 15,88 percento del modello base Qwen2.5-VL, ma l'accuratezza nel nominare le categorie OOD resta vicina alla baseline, indicando che il grounding spaziale generalizza meglio della denominazione semantica in presenza di uno spostamento di categoria.

Principali contributi

RSC introduce query di visual grounding basate su scenari con una lunghezza media di 52,7 parole, più di sei volte più lunghe delle query di RefCOCO, con etichette di difficoltà per ogni istanza lungo cinque assi, annotazioni di tracce di ragionamento per ogni istanza e una porzione di test out-of-distribution rigorosamente disgiunta tratta da LVIS.
Il benchmark mette in luce una modalità di fallimento sistematica nei modelli vision-language attuali: i modelli con una forte comprensione delle categorie tendono a localizzare male, e i modelli con forti capacità di rilevamento difettano del ragionamento semantico necessario per le query basate su scenari.
ScenGround dimostra che un curriculum consapevole delle etichette che combina un avvio supervisionato con Reinforcement Learning progressivo per difficoltà migliora sostanzialmente la localizzazione sia in-domain sia out-of-distribution, portando il mIoU da 30,31 a 55,68 su RSC-ID per il modello base.
Un audit umano di 300 istanze su tre annotatori ha prodotto un'accuratezza del 95,7 percento a maggioranza di voti con un kappa di Fleiss di 0,94, a sostegno dell'affidabilità delle annotazioni del benchmark.
L'articolo fornisce un'ablazione controllata che mostra l'importanza dell'ordinamento del curriculum: mescolare istanze facili e difficili in un unico stadio GRPO produce prestazioni inferiori rispetto al curriculum a due stadi dal facile al difficile, in linea con la spiegazione sulla scarsità delle ricompense offerta dagli autori.

Limiti e avvertenze

L'accuratezza di ScenGround nel nominare le categorie out-of-distribution è ancora vicina alla baseline non ottimizzata, il che separa in modo utile la denominazione semantica dal grounding spaziale; i forti guadagni di localizzazione suggeriscono che il curriculum sta già migliorando una parte importante del più difficile problema di comprensione degli scenari.
RSC utilizza GPT-4o per generare gli scenari e Gemini-2.5-Pro come giudice di qualità, con un audit umano che valida un sottoinsieme campionato; una revisione umana più ampia potrebbe rafforzare ulteriormente il benchmark, ma l'accuratezza riportata del 95,7 percento a maggioranza di voti e l'elevato accordo forniscono prove rassicuranti sull'affidabilità delle annotazioni.
RSC si concentra attualmente sul grounding statico, a oggetto singolo ed esocentrico, il che rende il benchmark preciso e analizzabile; il grounding multi-oggetto, temporale e interattivo sono estensioni naturali che si basano sulla stessa idea di comprensione degli scenari.
Il confronto con Grounding DINO utilizza input di categoria oracolo, perciò è meglio interpretarlo come un riferimento informativo di limite superiore anziché come un confronto diretto in fase di implementazione; questo aiuta comunque a chiarire quanta parte della sfida derivi dalla comprensione dello scenario rispetto alla localizzazione degli oggetti.
Il benchmark è costruito a partire da immagini naturali di MS-COCO e LVIS, lasciando ad analisi future altri domini come immagini mediche, GUI e immagini satellitari; all'interno del dominio scelto, le porzioni in-domain e out-of-distribution rivelano già un divario di valutazione significativo.

Come interpretare questo risultato

Questo articolo è meglio interpretato come un contributo solido e tempestivo al visual grounding: definisce una sfida realistica di comprensione degli scenari, la sostiene con un benchmark accuratamente validato ed esperimenti controllati, e mostra che il ragionamento a curriculum può migliorare sostanzialmente la localizzazione pur lasciando ricche opportunità per futuri lavori sulla generalizzazione.