Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He; Nisarg A. Shah; Qihua Dong; Zilin Xiao; Jaywon Koo; Vicente Ordonez

← volver a publicaciones

preprint

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez

arxiv:2604.02323

artículo pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice, la Universidad Johns Hopkins y la Universidad Northeastern han identificado una brecha significativa en la forma en que se evalúan los sistemas de IA visual: los benchmarks estándar de "anclaje visual" (visual grounding) — la capacidad de hacer coincidir una descripción textual con una región de una imagen — suelen usar frases cortas y literales como "el guante de cuero marrón sostenido por el receptor", que los modelos a menudo pueden resolver simplemente reconociendo una categoría de objeto con nombre. Para poner a prueba si los modelos pueden manejar un lenguaje más realista e indirecto, el equipo construyó un nuevo benchmark llamado Referring Scenario Comprehension (RSC), donde cada consulta es una descripción de extensión de párrafo escrita desde la perspectiva de un usuario — por ejemplo, describiendo a alguien que intenta consultar la hora en una parada de autobús sin mencionar nunca la palabra "reloj". El benchmark contiene aproximadamente 38.000 ejemplos anotados extraídos de imágenes de MS-COCO y LVIS, incluye un conjunto de prueba reservado con categorías de objetos completamente no vistas, y etiqueta cada instancia según cinco ejes de dificultad que abarcan el desorden, el tamaño del objeto, el solapamiento, la posición y si la categoría objetivo aparece varias veces en la escena. Cuando el equipo evaluó una variedad de modelos de visión y lenguaje actuales en RSC — incluyendo GPT-4o, Claude 3.7 y varios sistemas de código abierto — todos tuvieron grandes dificultades, y hasta el mejor modelo disponible directamente obtuvo una precisión de localización muy por debajo del 30%, en comparación con más del 60% del sistema desarrollado a propósito por los autores. Ese sistema, llamado ScenGround, combina un ajuste fino supervisado con ejemplos más fáciles para establecer un esquema de razonamiento con una etapa de aprendizaje por refuerzo que alimenta progresivamente al modelo con casos más difíciles y ambiguos. El trabajo es relevante porque demuestra que las puntuaciones impresionantes en los benchmarks de anclaje existentes pueden ocultar la incapacidad casi total de un modelo para manejar el tipo de lenguaje indirecto y orientado a objetivos que las personas usan de forma natural al describir lo que necesitan.

resumen

Los benchmarks existentes de anclaje visual (visual grounding) evalúan principalmente la alineación entre regiones de la imagen y expresiones referenciales literales, donde los modelos a menudo pueden tener éxito al hacer coincidir una categoría con nombre prominente. Exploramos un escenario complementario y más desafiante de anclaje visual basado en escenarios, donde el objetivo debe inferirse a partir de roles, intenciones y contexto relacional en lugar de una denominación explícita. Presentamos Referring Scenario Comprehension (RSC), un benchmark diseñado para este escenario. Las consultas de este benchmark son textos de extensión de párrafo que describen roles de objetos, objetivos del usuario y pistas contextuales, incluyendo referencias deliberadas a objetos distractores que a menudo requieren una comprensión profunda para resolverse. Cada instancia está anotada con etiquetas de dificultad interpretables relativas a unicidad, desorden (clutter), tamaño, solapamiento y posición, que exponen distintos modos de fallo y respaldan un análisis detallado. RSC contiene aproximadamente 31k ejemplos de entrenamiento, 4k ejemplos de prueba dentro del dominio y una partición de 3k fuera de distribución con categorías de objetos no vistas. Además, proponemos ScenGround, un método de razonamiento por currículo que sirve como punto de referencia para este escenario, combinando un arranque en caliente supervisado con aprendizaje por refuerzo consciente de la dificultad. Los experimentos muestran que las consultas basadas en escenarios exponen fallos sistemáticos en los modelos actuales que los benchmarks estándar no revelan, y que el entrenamiento por currículo mejora el rendimiento en los segmentos más difíciles y se transfiere a los benchmarks estándar.

detalles

comentario: 20 pages, 18 figures, Project Page: https://catherine-r-he.github.io/RSC/

cita

@article{hebeyond,
  title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
  author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
  journal = {arxiv:2604.02323},
  url = {https://arxiv.org/abs/2604.02323},
}

preguntas, contribuciones principales y limitaciones de este artículo generadas automáticamente

Preguntas que ayuda a responder este artículo

¿Qué es RSC y en qué se diferencia de benchmarks como RefCOCO? RSC reemplaza las frases referenciales cortas y literales por consultas de escenario de extensión de párrafo que describen un rol de usuario, un objetivo y al menos tres pistas de desambiguación, y nombran deliberadamente objetos distractores; los modelos deben predecir tanto la categoría objetivo como un cuadro delimitador sin que se les indique el nombre de la categoría en la consulta.
¿Cómo se desempeñan los modelos actuales del estado del arte en RSC? Los modelos de código cerrado como GPT-4o y Claude 3.7 alcanzan una alta precisión de categoría pero una precisión de localización muy baja en RSC, con GPT-4o llegando a solo 13,23 por ciento de Acc@0.5 en la partición dentro del dominio, mientras que el método propuesto ScenGround alcanza 60,90 por ciento de Acc@0.5 en la misma partición.
¿Qué es ScenGround y cómo funciona? ScenGround es un método de entrenamiento por currículo en dos etapas construido sobre Qwen2.5-VL-7B: la Etapa 1 es un paso de ajuste fino supervisado sobre los segmentos más fáciles de RSC para alinear el modelo con el esquema de razonamiento, y la Etapa 2 aplica aprendizaje por refuerzo GRPO consciente de la dificultad con recompensas de IoU moldeadas y recompensas de categoría conscientes de alias, muestreando progresivamente instancias más difíciles.
¿El entrenamiento en RSC se transfiere a los benchmarks estándar de expresiones referenciales? Sí, la etapa GRPO de ScenGround mejora la Acc@0.5 en la validación de RefCOCO+ de 52,54 a 70,16 por ciento y en la validación de RefCOCOg de 52,46 a 78,19 por ciento usando el mismo prompt personalizado, lo que sugiere que el currículo desarrolla habilidades de desambiguación transferibles.
¿Qué evalúa la partición fuera de distribución y qué muestran los resultados? La partición OOD usa categorías de LVIS sin solapamiento con las categorías de entrenamiento de COCO, evaluando la generalización entre categorías; ScenGround alcanza 38,11 por ciento de Acc@0.5 en OOD en comparación con 15,88 por ciento del modelo base Qwen2.5-VL, pero la precisión de denominación de categorías OOD se mantiene cerca de la línea base, lo que indica que el anclaje espacial generaliza mejor que la denominación semántica bajo cambio de categoría.

Contribuciones principales

RSC introduce consultas de anclaje visual basadas en escenarios con un promedio de 52,7 palabras, más de seis veces más largas que las consultas de RefCOCO, con etiquetas de dificultad por instancia en cinco ejes, anotaciones de trazas de razonamiento por instancia y una partición de prueba fuera de distribución estrictamente disjunta extraída de LVIS.
El benchmark expone un modo de fallo sistemático en los modelos actuales de visión y lenguaje: los modelos con fuerte comprensión de categorías tienden a localizar mal, y los modelos con fuertes capacidades de detección carecen del razonamiento semántico necesario para las consultas basadas en escenarios.
ScenGround demuestra que un currículo consciente de etiquetas que combina un arranque en caliente supervisado con aprendizaje por refuerzo progresivo en dificultad mejora sustancialmente la localización tanto dentro del dominio como fuera de distribución, elevando el mIoU de 30,31 a 55,68 en RSC-ID para el modelo base.
Una auditoría humana de 300 instancias por parte de tres anotadores arrojó un 95,7 por ciento de precisión por voto mayoritario con un kappa de Fleiss de 0,94, lo que respalda la fiabilidad de las anotaciones del benchmark.
El artículo proporciona una ablación controlada que muestra que el orden del currículo importa: mezclar instancias fáciles y difíciles en una sola etapa GRPO produce un rendimiento inferior al del currículo de dos etapas de fácil a difícil, lo cual es coherente con la explicación de escasez de recompensas ofrecida por los autores.

Limitaciones y advertencias

La precisión de denominación de categorías fuera de distribución de ScenGround sigue estando cerca de la línea base sin ajustar, lo que separa de forma útil la denominación semántica del anclaje espacial; las fuertes mejoras en localización sugieren que el currículo ya está mejorando una parte importante del problema más difícil de comprensión de escenarios.
RSC usa GPT-4o para generar escenarios y Gemini-2.5-Pro como juez de calidad, con una auditoría humana que valida un subconjunto muestreado; una revisión humana más amplia podría fortalecer aún más el benchmark, pero el 95,7 por ciento de precisión por voto mayoritario reportado y la alta concordancia proporcionan evidencia tranquilizadora de que las anotaciones son fiables.
RSC se centra actualmente en el anclaje estático, de un solo objeto y exocéntrico, lo que hace que el benchmark sea preciso y analizable; el anclaje multiobjeto, temporal e interactivo son extensiones naturales que se basan en la misma idea de comprensión de escenarios.
La comparación con Grounding DINO usa entradas de categoría tipo oráculo, por lo que se interpreta mejor como una referencia informativa de cota superior que como una comparación directa de despliegue; esto aún ayuda a aclarar cuánto del desafío proviene de la comprensión del escenario frente a la localización de objetos.
El benchmark está construido a partir de imágenes naturales de MS-COCO y LVIS, dejando otros dominios como imágenes médicas, interfaces gráficas (GUI) e imágenes satelitales para estudios futuros; dentro de su dominio elegido, las particiones dentro del dominio y fuera de distribución ya revelan una brecha de evaluación significativa.

Cómo interpretar este resultado

Este artículo se lee mejor como una contribución sólida y oportuna al anclaje visual: define un desafío realista de comprensión de escenarios, lo respalda con un benchmark cuidadosamente validado y experimentos controlados, y muestra que el razonamiento por currículo puede mejorar sustancialmente la localización, dejando al mismo tiempo amplias oportunidades para el trabajo futuro sobre generalización.