Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He; Nisarg A. Shah; Qihua Dong; Zilin Xiao; Jaywon Koo; Vicente Ordonez

← 論文一覧に戻る

preprint

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez

arxiv:2604.02323

論文 pdf 生の bibtex

研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表（記者）スタイルの文体で書かれています。

ライス大学、ジョンズ・ホプキンス大学、ノースイースタン大学の研究者らは、視覚AIシステムの評価方法における重大な隔たりを特定した。「視覚グラウンディング」、すなわちテキストの記述を画像内の領域に対応付ける能力を評価する標準的なベンチマークは、一般に「捕手が持っている茶色の革手袋」のような短く字義通りのフレーズを用いており、モデルは名前付きの物体カテゴリを認識するだけでしばしばこれを解くことができる。モデルがより現実的で回りくどい言語を扱えるかどうかを厳しく検証するため、研究チームはReferring Scenario Comprehension（RSC）と呼ばれる新しいベンチマークを構築した。そこでは各クエリがユーザの視点から書かれた段落の長さの記述となっている。例えば、「時計」という語に一切触れることなく、バス停で時刻を確認しようとしている人を描写するといった具合である。このベンチマークはMS-COCOとLVISの画像から得られた約38,000のアノテーション付き事例を含み、まったく未見の物体カテゴリを含む保留テストセットを備え、各インスタンスに、雑然さ、物体のサイズ、重なり、位置、そして対象カテゴリがシーン内に複数回出現するかどうかを網羅する五つの難易度軸に沿ってタグを付けている。研究チームがGPT-4o、Claude 3.7、およびいくつかのオープンソースシステムを含む現在の様々な視覚言語モデルをRSCで評価したところ、すべてがひどく苦戦し、最良の既製モデルでさえ局在化精度が30%を大きく下回ったのに対し、著者らの専用システムは60%を超えた。ScenGroundと呼ばれるそのシステムは、推論スキーマを確立するためのより容易な事例での教師ありファインチューニングと、より難しく曖昧な事例を段階的にモデルに与える強化学習段階を組み合わせている。本研究が重要なのは、既存のグラウンディングベンチマークでの目覚ましいスコアが、人々が必要なものを記述する際に自然に用いる種類の間接的で目標駆動の言語をモデルがほぼ全く扱えないことを覆い隠し得ることを実証しているからである。

要旨

既存の視覚グラウンディングベンチマークは、主に画像領域と字義通りの参照表現との対応付けを評価しており、そこではモデルが目立つ名前付きカテゴリを照合することでしばしば成功できる。本研究では、対象を明示的な命名ではなく役割、意図、関係的文脈から推論しなければならない、相補的でより困難な設定であるシナリオベースの視覚グラウンディングを探究する。我々は、この設定のために設計されたベンチマークであるReferring Scenario Comprehension（RSC）を導入する。このベンチマークのクエリは、物体の役割、ユーザの目標、文脈的手がかりを記述する段落の長さのテキストであり、解決するためにしばしば深い理解を要する妨害物体への意図的な言及を含む。各インスタンスには、独自性、雑然さ、サイズ、重なり、位置に関する解釈可能な難易度タグが付与されており、これらは異なる失敗モードを露呈させ、きめ細かな分析を支える。RSCは約31kの訓練事例、4kのドメイン内テスト事例、そして未見の物体カテゴリを含む3kの分布外分割を含む。我々はさらに、この設定の基準点となるカリキュラム推論手法であるScenGroundを提案し、教師ありのウォームスタートと難易度を意識した強化学習を組み合わせる。実験は、シナリオベースのクエリが標準的なベンチマークでは明らかにならない現在のモデルの体系的な失敗を露呈させること、およびカリキュラム訓練が困難なスライスにおける性能を向上させ、標準的なベンチマークへと転移することを示している。

詳細

コメント: 20 pages, 18 figures, Project Page: https://catherine-r-he.github.io/RSC/

引用

@article{hebeyond,
  title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
  author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
  journal = {arxiv:2604.02323},
  url = {https://arxiv.org/abs/2604.02323},
}

この論文について自動生成された質問、主な貢献、および限界

この論文が答える助けとなる質問

RSCとは何であり、RefCOCOのようなベンチマークとどう異なるのか。RSCは、短く字義通りの参照フレーズを、ユーザの役割、目標、および少なくとも三つの曖昧性解消の手がかりを記述する段落の長さのシナリオクエリで置き換え、意図的に妨害物体を名指しする。モデルはクエリ内でカテゴリ名を告げられることなく、対象カテゴリとバウンディングボックスの両方を予測しなければならない。
現在の最先端モデルはRSCでどの程度の性能を示すか。GPT-4oやClaude 3.7のようなクローズドソースのモデルは高いカテゴリ精度を達成するが、RSCでの局在化精度は非常に低く、GPT-4oはドメイン内分割でわずか13.23パーセントのAcc@0.5にとどまるのに対し、提案されたScenGround手法は同じ分割で60.90パーセントのAcc@0.5に達する。
ScenGroundとは何であり、どのように機能するのか。ScenGroundはQwen2.5-VL-7Bの上に構築された二段階のカリキュラム訓練手法である。ステージ1は、モデルを推論スキーマに整合させるための、より容易なRSCスライスでの教師ありファインチューニングのステップであり、ステージ2は、整形されたIoUと別名を意識したカテゴリ報酬を用いた難易度を意識したGRPO強化学習を適用し、より難しいインスタンスを段階的にサンプリングする。
RSCでの訓練は標準的な参照表現ベンチマークへ転移するか。然り、ScenGroundのGRPO段階は、同じカスタムプロンプトを用いた場合、RefCOCO+検証でのAcc@0.5を52.54から70.16パーセントへ、RefCOCOg検証で52.46から78.19パーセントへと向上させ、このカリキュラムが転移可能な曖昧性解消スキルを育むことを示唆している。
分布外分割は何を検証し、結果は何を示すか。OOD分割はCOCOの訓練カテゴリと重複のないLVISカテゴリを用い、カテゴリ横断の汎化を検証する。ScenGroundはベースのQwen2.5-VLモデルの15.88パーセントに対しOODで38.11パーセントのAcc@0.5を達成するが、OODのカテゴリ命名精度はベースラインに近いままであり、カテゴリのシフト下では空間的グラウンディングが意味的命名よりもよく汎化することを示している。

主な貢献

RSCは、RefCOCOのクエリの6倍以上の長さである平均52.7語のシナリオベースの視覚グラウンディングクエリを、五つの軸にまたがるインスタンスごとの難易度タグ、インスタンスごとの推論トレースのアノテーション、およびLVISから得られた厳密に互いに素な分布外テスト分割とともに導入する。
このベンチマークは、現在の視覚言語モデルにおける体系的な失敗モードを露呈させる。すなわち、カテゴリ理解の強いモデルは局在化が不得手な傾向があり、検出能力の強いモデルはシナリオベースのクエリに必要な意味的推論を欠いている。
ScenGroundは、教師ありのウォームスタートと難易度を漸進させる強化学習を組み合わせたタグを意識したカリキュラムが、ドメイン内と分布外の両方の局在化を大幅に向上させ、ベースモデルのRSC-IDにおけるmIoUを30.31から55.68へと引き上げることを実証している。
三名のアノテータにまたがる300インスタンスの人手による監査は、Fleissのカッパ0.94とともに95.7パーセントの多数決精度をもたらし、ベンチマークのアノテーションの信頼性を裏付けている。
本論文は、カリキュラムの順序が重要であることを示す統制されたアブレーションを提供する。すなわち、単一のGRPO段階で容易なインスタンスと難しいインスタンスを混ぜると、二段階の易から難へのカリキュラムよりも性能が低くなり、著者らが提示する報酬の疎性による説明と整合する。

限界と注意点

ScenGroundの分布外のカテゴリ命名精度は依然として未調整のベースラインに近く、これは意味的命名を空間的グラウンディングから有用に切り分けている。強い局在化の向上は、このカリキュラムがより難しいシナリオ理解問題の重要な部分をすでに改善していることを示唆している。
RSCはシナリオの生成にGPT-4oを、品質判定者としてGemini-2.5-Proを用い、サンプリングされた部分集合を人手の監査で検証している。より広範な人手によるレビューはベンチマークをさらに強化し得るが、報告された95.7パーセントの多数決精度と高い一致度は、アノテーションが信頼できるという安心感のある証拠を提供している。
RSCは現在、静的で単一物体の、外心的なグラウンディングに焦点を当てており、これがベンチマークを精密で分析可能なものにしている。複数物体、時間的、対話的なグラウンディングは、同じシナリオ理解の発想に基づく自然な拡張である。
Grounding DINOの比較はオラクルのカテゴリ入力を用いているため、直接的な展開上の比較というよりは有益な上限の基準として読むのが最も適切である。これは依然として、課題のどれだけがシナリオ理解に由来し、どれだけが物体の局在化に由来するのかを明確にするのに役立つ。
このベンチマークはMS-COCOとLVISの自然画像から構築されており、医用画像、GUI、衛星画像といった他の分野は今後の研究に残されている。選ばれた分野の内部では、ドメイン内分割と分布外分割がすでに意味のある評価の隔たりを明らかにしている。

この結果の読み解き方

本論文は、視覚グラウンディングへの強力で時宜を得た貢献として読むのが最も適切である。すなわち、現実的なシナリオ理解の課題を定義し、慎重に検証されたベンチマークと統制された実験でそれを裏付け、カリキュラム推論が局在化を大幅に向上させ得ることを示す一方で、今後の汎化研究のための豊かな機会を残している。