Beyond Referring Expressions: Scenario Comprehension Visual Grounding
Resumo do comunicado de imprensa
Pesquisadores da Rice University, da Johns Hopkins University e da Northeastern University identificaram uma lacuna significativa na forma como os sistemas de IA visual são testados: os benchmarks padrão de "ancoragem visual" — a capacidade de corresponder uma descrição textual a uma região em uma imagem — normalmente usam frases curtas e literais como "a luva de couro marrom segurada pelo receptor", que os modelos frequentemente conseguem resolver simplesmente reconhecendo uma categoria de objeto nomeada. Para testar de forma rigorosa se os modelos conseguem lidar com linguagem mais realista e indireta, a equipe construiu um novo benchmark chamado Referring Scenario Comprehension (RSC), no qual cada consulta é uma descrição do tamanho de um parágrafo escrita a partir da perspectiva de um usuário — por exemplo, descrevendo alguém tentando ver as horas em um ponto de ônibus sem nunca mencionar a palavra "relógio". O benchmark contém cerca de 38 mil exemplos anotados extraídos de imagens do MS-COCO e do LVIS, inclui um conjunto de teste reservado com categorias de objetos totalmente não vistas e etiqueta cada instância em cinco eixos de dificuldade que abrangem aglomeração, tamanho do objeto, sobreposição, posição e se a categoria-alvo aparece múltiplas vezes na cena. Quando a equipe avaliou uma variedade de modelos de visão e linguagem atuais no RSC — incluindo GPT-4o, Claude 3.7 e vários sistemas de código aberto — todos tiveram grande dificuldade, com até o melhor modelo pronto para uso pontuando bem abaixo de 30% de acurácia de localização, em comparação com mais de 60% para o sistema desenvolvido pelos autores. Esse sistema, chamado ScenGround, combina ajuste fino supervisionado em exemplos mais fáceis para estabelecer um esquema de raciocínio com um estágio de aprendizado por reforço que progressivamente alimenta o modelo com casos mais difíceis e ambíguos. O trabalho é relevante porque demonstra que pontuações impressionantes em benchmarks de ancoragem existentes podem mascarar a incapacidade quase total de um modelo de lidar com o tipo de linguagem indireta e orientada a objetivos que as pessoas naturalmente usam ao descrever o que precisam.
resumo
Os benchmarks existentes de ancoragem visual avaliam principalmente o alinhamento entre regiões de imagem e expressões referenciais literais, nas quais os modelos frequentemente conseguem ter sucesso ao corresponder a uma categoria nomeada proeminente. Exploramos um cenário complementar e mais desafiador de ancoragem visual baseada em cenário, no qual o alvo deve ser inferido a partir de papéis, intenções e contexto relacional, em vez de nomeação explícita. Apresentamos a Referring Scenario Comprehension (RSC), um benchmark projetado para esse cenário. As consultas neste benchmark são textos do tamanho de um parágrafo que descrevem papéis de objetos, objetivos do usuário e pistas contextuais, incluindo referências deliberadas a objetos distratores que frequentemente exigem compreensão profunda para serem resolvidas. Cada instância é anotada com etiquetas de dificuldade interpretáveis para unicidade, aglomeração, tamanho, sobreposição e posição, que expõem modos de falha distintos e dão suporte a uma análise refinada. A RSC contém aproximadamente 31 mil exemplos de treinamento, 4 mil exemplos de teste no domínio e uma divisão de 3 mil exemplos fora da distribuição com categorias de objetos não vistas. Propomos ainda o ScenGround, um método de raciocínio por currículo que serve como ponto de referência para esse cenário, combinando inicialização supervisionada com aprendizado por reforço sensível à dificuldade. Os experimentos mostram que consultas baseadas em cenário expõem falhas sistemáticas nos modelos atuais que os benchmarks padrão não revelam, e que o treinamento por currículo melhora o desempenho em fatias desafiadoras e se transfere para benchmarks padrão.
detalhes
citação
@article{hebeyond,
title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
journal = {arxiv:2604.02323},
url = {https://arxiv.org/abs/2604.02323},
}
perguntas, principais contribuições e limitações deste artigo geradas automaticamente
Perguntas que este artigo ajuda a responder
- O que é a RSC e como ela difere de benchmarks como o RefCOCO? A RSC substitui frases referenciais curtas e literais por consultas de cenário do tamanho de um parágrafo que descrevem um papel do usuário, um objetivo e ao menos três pistas desambiguadoras, e nomeiam deliberadamente objetos distratores; os modelos devem prever tanto a categoria-alvo quanto uma caixa delimitadora sem que o nome da categoria seja informado na consulta.
- Como os modelos de ponta atuais se saem na RSC? Modelos de código fechado como GPT-4o e Claude 3.7 alcançam alta acurácia de categoria, mas acurácia de localização muito baixa na RSC, com o GPT-4o atingindo apenas 13,23 por cento de Acc@0,5 na divisão no domínio, enquanto o método ScenGround proposto atinge 60,90 por cento de Acc@0,5 na mesma divisão.
- O que é o ScenGround e como ele funciona? O ScenGround é um método de treinamento por currículo em dois estágios construído sobre o Qwen2.5-VL-7B: o Estágio 1 é uma etapa de ajuste fino supervisionado em fatias mais fáceis da RSC para alinhar o modelo ao esquema de raciocínio, e o Estágio 2 aplica aprendizado por reforço GRPO sensível à dificuldade com recompensas de IoU moldada e de categoria sensível a sinônimos, amostrando progressivamente instâncias mais difíceis.
- O treinamento na RSC se transfere para benchmarks padrão de expressões referenciais? Sim, o estágio GRPO do ScenGround melhora a Acc@0,5 na validação do RefCOCO+ de 52,54 para 70,16 por cento e na validação do RefCOCOg de 52,46 para 78,19 por cento ao usar o mesmo prompt personalizado, sugerindo que o currículo desenvolve habilidades de desambiguação transferíveis.
- O que a divisão fora da distribuição testa e o que os resultados mostram? A divisão OOD usa categorias do LVIS sem sobreposição com as categorias de treinamento do COCO, testando a generalização entre categorias; o ScenGround alcança 38,11 por cento de Acc@0,5 em OOD em comparação com 15,88 por cento para o modelo base Qwen2.5-VL, mas a acurácia de nomeação de categoria em OOD permanece próxima à linha de base, indicando que a ancoragem espacial generaliza melhor do que a nomeação semântica sob mudança de categoria.
Principais contribuições
- A RSC introduz consultas de ancoragem visual baseadas em cenário com média de 52,7 palavras, mais de seis vezes mais longas do que as consultas do RefCOCO, com etiquetas de dificuldade por instância em cinco eixos, anotações de traço de raciocínio por instância e uma divisão de teste fora da distribuição estritamente disjunta extraída do LVIS.
- O benchmark expõe um modo de falha sistemático nos modelos de visão e linguagem atuais: modelos com forte compreensão de categoria tendem a localizar mal, e modelos com fortes capacidades de detecção carecem do raciocínio semântico necessário para consultas baseadas em cenário.
- O ScenGround demonstra que um currículo sensível a etiquetas, combinando inicialização supervisionada com aprendizado por reforço progressivo em dificuldade, melhora substancialmente tanto a localização no domínio quanto a fora da distribuição, elevando o mIoU de 30,31 para 55,68 na RSC-ID para o modelo base.
- A auditoria humana de 300 instâncias por três anotadores produziu 95,7 por cento de acurácia por voto majoritário com um kappa de Fleiss de 0,94, dando suporte à confiabilidade das anotações do benchmark.
- O artigo fornece uma ablação controlada mostrando que a ordenação do currículo importa: misturar instâncias fáceis e difíceis em um único estágio GRPO resulta em desempenho inferior ao do currículo em dois estágios do fácil para o difícil, consistente com a explicação de esparsidade de recompensa oferecida pelos autores.
Limitações e ressalvas
- A acurácia de nomeação de categoria fora da distribuição do ScenGround ainda está próxima da linha de base não ajustada, o que separa de forma útil a nomeação semântica da ancoragem espacial; os fortes ganhos de localização sugerem que o currículo já está melhorando uma parte importante do problema mais difícil de compreensão de cenário.
- A RSC usa o GPT-4o para gerar cenários e o Gemini-2.5-Pro como juiz de qualidade, com uma auditoria humana validando um subconjunto amostrado; uma revisão humana mais ampla poderia fortalecer ainda mais o benchmark, mas a acurácia por voto majoritário relatada de 95,7 por cento e a alta concordância fornecem evidências tranquilizadoras de que as anotações são confiáveis.
- A RSC atualmente concentra-se em ancoragem estática, de objeto único e exocêntrica, o que torna o benchmark preciso e analisável; ancoragem multiobjeto, temporal e interativa são extensões naturais que se baseiam na mesma ideia de compreensão de cenário.
- A comparação com o Grounding DINO usa entradas de categoria oráculo, de modo que é mais bem compreendida como uma referência informativa de limite superior, em vez de uma comparação direta de implantação; isso ainda ajuda a esclarecer quanto do desafio vem da compreensão de cenário versus da localização de objetos.
- O benchmark é construído a partir de imagens naturais do MS-COCO e do LVIS, deixando outros domínios, como imagens médicas, interfaces gráficas e imagens de satélite, para estudo futuro; dentro de seu domínio escolhido, as divisões no domínio e fora da distribuição já revelam uma lacuna de avaliação significativa.
Como interpretar este resultado
Este artigo é mais bem compreendido como uma contribuição forte e oportuna para a ancoragem visual: ele define um desafio realista de compreensão de cenário, sustenta-o com um benchmark cuidadosamente validado e experimentos controlados, e mostra que o raciocínio por currículo pode melhorar substancialmente a localização, ao mesmo tempo em que deixa amplas oportunidades para trabalhos futuros de generalização.