Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He; Nisarg A. Shah; Qihua Dong; Zilin Xiao; Jaywon Koo; Vicente Ordonez

← назад к публикациям

preprint

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez

arxiv:2604.02323

статья pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University, Johns Hopkins University и Northeastern University выявили существенный пробел в том, как тестируются визуальные AI-системы: стандартные бенчмарки для «визуальной локализации» — способности сопоставить текстовое описание с областью изображения — обычно используют короткие, буквальные фразы вроде «коричневая кожаная перчатка в руке кэтчера», которые модели часто могут решить, просто распознав именованную категорию объекта. Чтобы проверить под нагрузкой, способны ли модели обрабатывать более реалистичный, обходной язык, команда построила новый бенчмарк под названием Referring Scenario Comprehension (RSC), где каждый запрос представляет собой описание длиной в абзац, написанное с точки зрения пользователя — например, описывающее человека, пытающегося узнать время на автобусной остановке, ни разу не упоминая слово «часы». Бенчмарк содержит около 38 000 размеченных примеров, взятых из изображений MS-COCO и LVIS, включает отложенный тестовый набор с полностью невиданными ранее категориями объектов и размечает каждый экземпляр по пяти осям сложности, охватывающим загромождённость, размер объекта, перекрытие, положение и то, появляется ли целевая категория в сцене несколько раз. Когда команда оценила ряд современных моделей зрения и языка на RSC — включая GPT-4o, Claude 3.7 и несколько систем с открытым исходным кодом — все они справлялись очень плохо: даже лучшая готовая модель набирала значительно меньше 30% точности локализации по сравнению с более чем 60% у специально созданной авторами системы. Эта система, названная ScenGround, сочетает supervised-дообучение на более простых примерах для формирования схемы рассуждения с этапом reinforcement learning, который постепенно подаёт модели всё более сложные, более неоднозначные случаи. Работа важна, поскольку демонстрирует, что впечатляющие результаты на существующих бенчмарках локализации могут маскировать почти полную неспособность модели обрабатывать тот вид косвенного, целенаправленного языка, который люди естественно используют, описывая, что им нужно.

аннотация

Существующие бенчмарки для визуальной локализации в основном оценивают соответствие между областями изображения и буквальными referring-выражениями, где модели часто могут добиться успеха, просто сопоставляя заметную именованную категорию. Мы исследуем дополняющую и более сложную постановку сценарной визуальной локализации, где целевой объект должен быть выведен из ролей, намерений и реляционного контекста, а не из явного называния. Мы представляем Referring Scenario Comprehension (RSC) — бенчмарк, разработанный для этой постановки. Запросы в этом бенчмарке представляют собой тексты длиной в абзац, описывающие роли объектов, цели пользователя и контекстные подсказки, включая намеренные упоминания отвлекающих объектов, для разрешения которых часто требуется глубокое понимание. Каждый экземпляр размечен интерпретируемыми тегами сложности по уникальности, загромождённости, размеру, перекрытию и положению, которые раскрывают различные режимы отказа и поддерживают детальный анализ. RSC содержит примерно 31 тыс. обучающих примеров, 4 тыс. внутридоменных тестовых примеров и сплит из 3 тыс. примеров вне распределения с невиданными ранее категориями объектов. Кроме того, мы предлагаем ScenGround — метод curriculum-рассуждения, служащий точкой отсчёта для этой постановки и сочетающий supervised-разогрев с reinforcement learning, учитывающим сложность. Эксперименты показывают, что сценарные запросы выявляют систематические отказы современных моделей, которые стандартные бенчмарки не раскрывают, и что curriculum-обучение улучшает производительность на сложных срезах и переносится на стандартные бенчмарки.

подробности

комментарий: 20 pages, 18 figures, Project Page: https://catherine-r-he.github.io/RSC/

цитирование

@article{hebeyond,
  title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
  author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
  journal = {arxiv:2604.02323},
  url = {https://arxiv.org/abs/2604.02323},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

Что такое RSC и чем он отличается от бенчмарков вроде RefCOCO? RSC заменяет короткие буквальные referring-фразы сценарными запросами длиной в абзац, которые описывают роль пользователя, цель и не менее трёх различающих подсказок, а также намеренно называют отвлекающие объекты; модели должны предсказать как целевую категорию, так и ограничивающую рамку, не получая названия категории в запросе.
Как современные модели справляются с RSC? Закрытые модели вроде GPT-4o и Claude 3.7 достигают высокой точности категории, но очень низкой точности локализации на RSC: GPT-4o достигает лишь 13,23 процента Acc@0.5 на внутридоменном сплите, тогда как предложенный метод ScenGround достигает 60,90 процента Acc@0.5 на том же сплите.
Что такое ScenGround и как он работает? ScenGround — это двухэтапный метод curriculum-обучения, построенный на Qwen2.5-VL-7B: этап 1 — шаг supervised-дообучения на более простых срезах RSC для согласования модели со схемой рассуждения, а этап 2 применяет учитывающий сложность reinforcement learning GRPO с формированным вознаграждением по IoU и вознаграждением за категории с учётом псевдонимов, постепенно сэмплируя более сложные экземпляры.
Переносится ли обучение на RSC на стандартные бенчмарки referring-выражений? Да, этап GRPO у ScenGround улучшает Acc@0.5 на валидации RefCOCO+ с 52,54 до 70,16 процента и на валидации RefCOCOg с 52,46 до 78,19 процента при использовании того же кастомного промпта, что говорит о том, что curriculum развивает переносимые навыки разрешения неоднозначности.
Что тестирует сплит вне распределения и что показывают результаты? Сплит OOD использует категории LVIS без пересечения с обучающими категориями COCO, тестируя обобщение между категориями; ScenGround достигает 38,11 процента Acc@0.5 на OOD по сравнению с 15,88 процента у базовой модели Qwen2.5-VL, но точность называния категорий на OOD остаётся близкой к базовой, что указывает на то, что пространственная локализация обобщается лучше, чем семантическое называние при сдвиге категорий.

Основные вклады

RSC вводит запросы сценарной визуальной локализации в среднем по 52,7 слова, что более чем в шесть раз длиннее запросов RefCOCO, с тегами сложности по каждому экземпляру по пяти осям, аннотациями трассы рассуждения по каждому экземпляру и строго непересекающимся тестовым сплитом вне распределения, взятым из LVIS.
Бенчмарк раскрывает систематический режим отказа в современных моделях зрения и языка: модели с сильным пониманием категорий, как правило, плохо локализуют, а модели с сильными способностями к детекции лишены семантического рассуждения, необходимого для сценарных запросов.
ScenGround демонстрирует, что учитывающий теги curriculum, сочетающий supervised-разогрев с reinforcement learning по нарастанию сложности, существенно улучшает как внутридоменную, так и внедоменную локализацию, повышая mIoU с 30,31 до 55,68 на RSC-ID для базовой модели.
Человеческий аудит 300 экземпляров тремя аннотаторами дал 95,7 процента точности по большинству голосов с каппой Флейса 0,94, что подтверждает надёжность аннотаций бенчмарка.
Статья предоставляет контролируемое абляционное исследование, показывающее, что порядок curriculum имеет значение: смешивание лёгких и сложных экземпляров в одном этапе GRPO даёт более низкую производительность, чем двухэтапный curriculum от лёгкого к сложному, что согласуется с объяснением разреженности вознаграждения, предложенным авторами.

Ограничения и предостережения

Точность называния категорий вне распределения у ScenGround всё ещё близка к ненастроенной базовой модели, что полезно отделяет семантическое называние от пространственной локализации; сильный прирост в локализации говорит о том, что curriculum уже улучшает важную часть более сложной задачи сценарного понимания.
RSC использует GPT-4o для генерации сценариев и Gemini-2.5-Pro в качестве судьи качества, с человеческим аудитом, валидирующим выборочное подмножество; более широкая человеческая проверка могла бы дополнительно усилить бенчмарк, но сообщённые 95,7 процента точности по большинству голосов и высокое согласие дают обнадёживающее свидетельство надёжности аннотаций.
RSC в настоящее время сосредоточен на статической, одно-объектной, экзоцентрической локализации, что делает бенчмарк точным и поддающимся анализу; много-объектная, временная и интерактивная локализация — естественные расширения, которые строятся на той же идее сценарного понимания.
Сравнение с Grounding DINO использует оракульные входные данные категорий, поэтому его лучше всего рассматривать как информативную верхнеграничную точку отсчёта, а не как прямое сравнение в условиях развёртывания; это всё же помогает прояснить, какая часть сложности проистекает из сценарного понимания, а какая — из локализации объектов.
Бенчмарк построен на натуральных изображениях из MS-COCO и LVIS, оставляя другие домены, такие как медицинские изображения, GUI и спутниковые снимки, для будущих исследований; в рамках выбранного домена внутридоменный и внедоменный сплиты уже выявляют значимый пробел в оценке.

Как интерпретировать этот результат

Эту статью лучше всего рассматривать как сильный и своевременный вклад в визуальную локализацию: она определяет реалистичную задачу сценарного понимания, подкрепляет её тщательно валидированным бенчмарком и контролируемыми экспериментами и показывает, что curriculum-рассуждение может существенно улучшить локализацию, оставляя при этом богатые возможности для будущей работы над обобщением.