Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He; Nisarg A. Shah; Qihua Dong; Zilin Xiao; Jaywon Koo; Vicente Ordonez

← 返回论文列表

preprint

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez

arxiv:2604.02323

论文 pdf 原始 bibtex

实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气，面向普通读者撰写。

来自莱斯大学、约翰斯·霍普金斯大学和东北大学的研究人员发现了视觉 AI 系统测试方式中的一个重要缺口：用于“视觉定位”（即将文本描述与图像中某个区域匹配的能力）的标准基准通常使用简短、字面的短语，例如“接球手手中的棕色皮手套”，而模型往往只需识别一个命名的对象类别即可解决。为了压力测试模型能否处理更贴近现实、更迂回的语言，团队构建了一个名为 Referring Scenario Comprehension（RSC）的新基准，其中每个查询都是从用户视角撰写的段落长度描述——例如，描述某人在公交车站试图查看时间，却从未提及“时钟”一词。该基准包含约 38,000 个标注样本，取自 MS-COCO 和 LVIS 图像，并设有一个保留测试集，其中包含完全未见过的对象类别，且沿五个难度维度对每个实例进行标记，涵盖杂乱程度、对象尺寸、重叠、位置以及目标类别是否在场景中多次出现。当团队在 RSC 上评估一系列当前的视觉-语言模型（包括 GPT-4o、Claude 3.7 以及若干开源系统）时，所有模型都表现得很糟糕，即便是最好的现成模型，其定位准确率也远低于 30%，而作者专门构建的系统则超过 60%。该系统名为 ScenGround，它将在较简单样本上的有监督微调（用以建立推理范式）与一个强化学习阶段相结合，后者逐步向模型提供更难、更模糊的样例。这项工作的意义在于，它表明现有定位基准上令人印象深刻的分数，可能掩盖了模型几乎完全无法处理人们在描述自身需求时自然使用的那种间接、目标驱动语言的事实。

摘要

现有的视觉定位（visual grounding）基准主要评估图像区域与字面指代表达之间的对齐，而模型往往只需匹配某个显著的命名类别就能取得成功。我们探索了一种互补且更具挑战性的设定——基于场景的视觉定位，其中目标必须从角色、意图和关系语境中推断出来，而非通过显式命名得到。我们提出了 Referring Scenario Comprehension（RSC），一个为该设定设计的基准。该基准中的查询是段落长度的文本，描述对象的角色、用户的目标以及语境线索，并刻意提及干扰对象，这些往往需要深层理解才能消解。每个实例都标注了关于唯一性、杂乱程度、尺寸、重叠和位置的可解释难度标签，从而暴露不同的失败模式并支持细粒度分析。RSC 包含约 31k 个训练样本、4k 个域内测试样本，以及一个包含未见过对象类别的 3k 个分布外（out-of-distribution）拆分。我们进一步提出 ScenGround，一种课程推理（curriculum reasoning）方法，作为该设定的参考基准，它将有监督热启动与难度感知的强化学习相结合。实验表明，基于场景的查询暴露了当前模型中标准基准无法揭示的系统性失败，且课程训练在具有挑战性的切片上提升了性能，并能迁移到标准基准上。

详情

备注: 20 pages, 18 figures, Project Page: https://catherine-r-he.github.io/RSC/

引用

@article{hebeyond,
  title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
  author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
  journal = {arxiv:2604.02323},
  url = {https://arxiv.org/abs/2604.02323},
}

自动生成的本文相关问题、主要贡献与局限

本文有助于回答的问题

什么是 RSC，它与 RefCOCO 等基准有何不同？RSC 用段落长度的场景查询取代了简短的字面指代短语，这些查询描述了用户角色、目标以及至少三条用于消歧的线索，并刻意指明干扰对象；模型必须在查询未告知类别名称的情况下，同时预测目标类别和边界框。
当前最先进的模型在 RSC 上表现如何？GPT-4o 和 Claude 3.7 等闭源模型在 RSC 上取得了较高的类别准确率，但定位准确率非常低，GPT-4o 在域内拆分上的 Acc@0.5 仅为 13.23%，而所提出的 ScenGround 方法在同一拆分上达到 60.90% 的 Acc@0.5。
什么是 ScenGround，它是如何工作的？ScenGround 是一种基于 Qwen2.5-VL-7B 构建的两阶段课程训练方法：第一阶段是在较简单的 RSC 切片上进行有监督微调，以使模型对齐推理范式；第二阶段应用难度感知的 GRPO 强化学习，采用经过塑形的 IoU 奖励和别名感知的类别奖励，逐步采样更难的实例。
在 RSC 上训练能否迁移到标准的指代表达基准上？可以，ScenGround 的 GRPO 阶段在使用相同自定义提示时，将 RefCOCO+ 验证集上的 Acc@0.5 从 52.54% 提升至 70.16%，并将 RefCOCOg 验证集上的 Acc@0.5 从 52.46% 提升至 78.19%，这表明该课程培养了可迁移的消歧能力。
分布外拆分测试什么，结果显示了什么？OOD 拆分使用与 COCO 训练类别没有重叠的 LVIS 类别，用以测试跨类别泛化；ScenGround 在 OOD 上达到 38.11% 的 Acc@0.5，而基础 Qwen2.5-VL 模型仅为 15.88%，但 OOD 的类别命名准确率仍接近基线，这表明在类别迁移下，空间定位比语义命名泛化得更好。

主要贡献

RSC 引入了基于场景的视觉定位查询，平均长度为 52.7 个词，比 RefCOCO 查询长六倍以上，并为每个实例提供了跨五个维度的难度标签、每个实例的推理轨迹标注，以及一个取自 LVIS 的严格不相交的分布外测试拆分。
该基准暴露了当前视觉-语言模型中的一种系统性失败模式：具有强类别理解能力的模型往往定位较差，而具有强检测能力的模型则缺乏处理基于场景查询所需的语义推理能力。
ScenGround 表明，一种将有监督热启动与难度渐进式强化学习相结合的标签感知课程，能够显著改善域内和分布外的定位，将基础模型在 RSC-ID 上的 mIoU 从 30.31 提升到 55.68。
由三名标注者对 300 个实例进行的人工审核得出 95.7% 的多数投票准确率，Fleiss kappa 为 0.94，支持了该基准标注的可靠性。
论文提供了一项受控消融实验，表明课程顺序很重要：在单一 GRPO 阶段中混合简单和困难实例的性能，低于由易到难的两阶段课程，这与作者提出的奖励稀疏性解释一致。

局限与注意事项

ScenGround 的分布外类别命名准确率仍接近未经调优的基线，这有助于将语义命名与空间定位区分开来；强劲的定位提升表明，该课程已经在改善更难的场景理解问题中的一个重要部分。
RSC 使用 GPT-4o 生成场景，使用 Gemini-2.5-Pro 作为质量评判者，并通过人工审核验证抽样子集；更广泛的人工审查可以进一步加强该基准，但所报告的 95.7% 多数投票准确率和高度一致性提供了令人放心的证据，表明标注是可靠的。
RSC 目前专注于静态、单对象、外视角（exocentric）定位，这使得基准精确且易于分析；多对象、时序和交互式定位是建立在同一场景理解理念上的自然延伸。
Grounding DINO 的比较使用了 oracle 类别输入，因此最好将其视为一个信息丰富的上界参考，而非直接的部署比较；这仍有助于厘清挑战中有多少来自场景理解，又有多少来自对象定位。
该基准基于 MS-COCO 和 LVIS 自然图像构建，将医学图像、GUI 和卫星图像等其他领域留待未来研究；在其所选领域内，域内和分布外拆分已经揭示了一个有意义的评估缺口。

如何理解这一结果

这篇论文最好被理解为对视觉定位的一项有力且及时的贡献：它定义了一个贴近现实的场景理解挑战，以一个经过精心验证的基准和受控实验作为支撑，并表明课程推理能够显著改善定位，同时为未来的泛化工作留下了丰富的机会。