Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He; Nisarg A. Shah; Qihua Dong; Zilin Xiao; Jaywon Koo; Vicente Ordonez

← 논문 목록으로 돌아가기

preprint

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez

arxiv:2604.02323

논문 pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교, 존스 홉킨스 대학교, 노스이스턴 대학교의 연구자들은 시각 AI 시스템이 테스트되는 방식에서 중요한 격차를 발견했다. "visual grounding", 즉 텍스트 설명을 이미지의 영역과 매칭하는 능력에 대한 표준 벤치마크는 일반적으로 "포수가 들고 있는 갈색 가죽 장갑"과 같은 짧고 문자 그대로의 구절을 사용하는데, 모델은 명명된 객체 범주를 인식하는 것만으로 이를 종종 해결할 수 있다. 모델이 더 현실적이고 우회적인 언어를 다룰 수 있는지 스트레스 테스트하기 위해, 연구팀은 Referring Scenario Comprehension(RSC)이라는 새로운 벤치마크를 구축했다. 이 벤치마크에서 각 질의는 사용자의 관점에서 작성된 단락 길이의 설명으로, 예를 들어 "clock"이라는 단어를 한 번도 언급하지 않으면서 버스 정류장에서 시간을 확인하려는 사람을 묘사한다. 이 벤치마크는 MS-COCO와 LVIS 이미지에서 추출한 약 38,000개의 주석된 예제를 포함하고, 완전히 보지 못한 객체 범주를 가진 별도 테스트 세트를 포함하며, 각 사례를 혼잡도, 객체 크기, 중첩, 위치, 그리고 대상 범주가 장면에 여러 번 나타나는지 여부를 다루는 다섯 가지 난이도 축으로 태깅한다. 연구팀이 GPT-4o, Claude 3.7, 그리고 여러 오픈소스 시스템을 포함한 다양한 현재 vision-language 모델을 RSC에서 평가했을 때, 모두 크게 고전했으며, 최고 성능의 기성 모델조차도 30%에 훨씬 못 미치는 위치 정확도를 기록한 반면, 저자들의 목적 구축 시스템은 60%를 넘었다. ScenGround라 불리는 그 시스템은 추론 스키마를 확립하기 위해 더 쉬운 예제에 대한 지도 미세조정과, 모델에 점진적으로 더 어렵고 모호한 사례를 공급하는 강화 학습 단계를 결합한다. 이 연구는 기존 grounding 벤치마크에서의 인상적인 점수가 사람들이 필요한 것을 묘사할 때 자연스럽게 사용하는 간접적이고 목표 지향적인 언어를 거의 전혀 다루지 못하는 모델의 무능력을 가릴 수 있음을 보여주기 때문에 중요하다.

초록

기존의 visual grounding 벤치마크는 주로 이미지 영역과 문자 그대로의 지시 표현(referring expression) 사이의 정렬을 평가하며, 이러한 환경에서 모델은 두드러진 명명된 범주를 매칭하는 것만으로도 종종 성공할 수 있다. 우리는 이를 보완하면서 더 어려운 설정인 시나리오 기반 visual grounding을 탐구한다. 이 설정에서 대상은 명시적인 명명이 아니라 역할, 의도, 그리고 관계적 맥락으로부터 추론되어야 한다. 우리는 이러한 설정을 위해 설계된 벤치마크인 Referring Scenario Comprehension(RSC)을 도입한다. 이 벤치마크의 질의는 객체의 역할, 사용자의 목표, 맥락적 단서를 기술하는 단락 길이의 텍스트로, 해결하기 위해 종종 깊은 이해를 요구하는 방해 객체(distractor)에 대한 의도적인 언급을 포함한다. 각 사례는 고유성(uniqueness), 혼잡도(clutter), 크기(size), 중첩(overlap), 위치(position)에 대한 해석 가능한 난이도 태그로 주석이 달려 있으며, 이는 서로 다른 실패 양상을 드러내고 세밀한 분석을 지원한다. RSC는 약 31k개의 학습 예제, 4k개의 도메인 내 테스트 예제, 그리고 보지 못한 객체 범주를 포함하는 3k개의 분포 외(out-of-distribution) 분할로 구성된다. 우리는 또한 이 설정의 기준점 역할을 하는 커리큘럼 추론 방법인 ScenGround를 제안하며, 이는 지도 학습 기반의 워밍업과 난이도 인식 강화 학습을 결합한다. 실험 결과, 시나리오 기반 질의는 표준 벤치마크가 드러내지 못하는 현재 모델들의 체계적인 실패를 드러내며, 커리큘럼 학습은 어려운 부분집합에서의 성능을 향상시키고 표준 벤치마크로도 전이됨을 보인다.

세부 정보

비고: 20 pages, 18 figures, Project Page: https://catherine-r-he.github.io/RSC/

인용

@article{hebeyond,
  title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
  author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
  journal = {arxiv:2604.02323},
  url = {https://arxiv.org/abs/2604.02323},
}

이 논문의 자동 생성된 질문, 주요 기여 및 한계

이 논문이 답하는 데 도움이 되는 질문

RSC란 무엇이며 RefCOCO와 같은 벤치마크와 어떻게 다른가? RSC는 짧고 문자 그대로의 지시 구절을 사용자 역할, 목표, 그리고 최소 세 개의 구별 단서를 기술하는 단락 길이의 시나리오 질의로 대체하며, 방해 객체를 의도적으로 명명한다. 모델은 질의에서 범주 이름을 듣지 않은 채로 대상 범주와 경계 상자를 모두 예측해야 한다.
현재 최첨단 모델들은 RSC에서 어떻게 수행하는가? GPT-4o와 Claude 3.7 같은 비공개 모델들은 높은 범주 정확도를 달성하지만 RSC에서 매우 낮은 위치 정확도를 보이며, GPT-4o는 도메인 내 분할에서 Acc@0.5 기준 13.23%에 그치는 반면, 제안된 ScenGround 방법은 같은 분할에서 60.90%에 도달한다.
ScenGround란 무엇이며 어떻게 작동하는가? ScenGround는 Qwen2.5-VL-7B 위에 구축된 2단계 커리큘럼 학습 방법이다. 1단계는 모델을 추론 스키마에 맞추기 위해 더 쉬운 RSC 부분집합에 대해 지도 미세조정을 수행하는 단계이고, 2단계는 형태가 조정된 IoU와 별칭 인식 범주 보상을 사용하여 난이도 인식 GRPO 강화 학습을 적용하며 점진적으로 더 어려운 사례를 샘플링한다.
RSC에 대한 학습이 표준 지시 표현 벤치마크로 전이되는가? 그렇다. ScenGround의 GRPO 단계는 동일한 커스텀 프롬프트를 사용할 때 RefCOCO+ 검증에서 Acc@0.5를 52.54%에서 70.16%로, RefCOCOg 검증에서 52.46%에서 78.19%로 향상시키며, 이는 커리큘럼이 전이 가능한 구별 능력을 개발함을 시사한다.
분포 외(OOD) 분할은 무엇을 테스트하며 결과는 무엇을 보여주는가? OOD 분할은 COCO 학습 범주와 겹치지 않는 LVIS 범주를 사용하여 범주 간 일반화를 테스트한다. ScenGround는 OOD에서 Acc@0.5 기준 38.11%를 달성하는데, 이는 기본 Qwen2.5-VL 모델의 15.88%와 비교된다. 그러나 OOD 범주 명명 정확도는 기준선에 가깝게 유지되며, 이는 범주 변화 하에서 공간적 grounding이 의미적 명명보다 더 잘 일반화됨을 나타낸다.

주요 기여

RSC는 평균 52.7 단어의 시나리오 기반 visual grounding 질의를 도입하는데, 이는 RefCOCO 질의보다 여섯 배 이상 길며, 다섯 가지 축에 걸친 사례별 난이도 태그, 사례별 추론 추적 주석, 그리고 LVIS에서 추출한 엄격하게 분리된 분포 외 테스트 분할을 포함한다.
이 벤치마크는 현재 vision-language 모델의 체계적인 실패 양상을 드러낸다. 강한 범주 이해를 가진 모델은 위치 추정을 잘 못하는 경향이 있고, 강한 탐지 능력을 가진 모델은 시나리오 기반 질의에 필요한 의미적 추론이 부족하다.
ScenGround는 지도 학습 워밍업과 난이도 점진 강화 학습을 결합한 태그 인식 커리큘럼이 도메인 내 및 분포 외 위치 추정을 모두 상당히 향상시킴을 입증하며, 기본 모델의 RSC-ID에서 mIoU를 30.31에서 55.68로 끌어올린다.
세 명의 주석자에 걸친 300개 사례에 대한 인간 감사 결과 다수결 정확도 95.7%와 Fleiss kappa 0.94를 산출하여 벤치마크 주석의 신뢰성을 뒷받침한다.
본 논문은 커리큘럼 순서가 중요함을 보여주는 통제된 ablation을 제공한다. 단일 GRPO 단계에서 쉬운 사례와 어려운 사례를 혼합하는 것은 쉬운 것에서 어려운 것으로의 2단계 커리큘럼보다 낮은 성능을 산출하는데, 이는 저자들이 제시한 보상 희소성 설명과 일치한다.

한계 및 유의 사항

ScenGround의 분포 외 범주 명명 정확도는 여전히 미세조정되지 않은 기준선에 가까운데, 이는 의미적 명명과 공간적 grounding을 유용하게 분리한다. 강한 위치 추정 향상은 커리큘럼이 더 어려운 시나리오 이해 문제의 중요한 부분을 이미 개선하고 있음을 시사한다.
RSC는 시나리오를 생성하기 위해 GPT-4o를, 품질 판정자로 Gemini-2.5-Pro를 사용하며, 인간 감사가 샘플링된 부분집합을 검증한다. 더 광범위한 인간 검토는 벤치마크를 한층 더 강화할 수 있지만, 보고된 95.7%의 다수결 정확도와 높은 일치도는 주석이 신뢰할 만하다는 안심할 만한 증거를 제공한다.
RSC는 현재 정적이고 단일 객체이며 외부 시점(exocentric)의 grounding에 초점을 맞추고 있어 벤치마크를 정밀하고 분석 가능하게 만든다. 다중 객체, 시간적, 상호작용적 grounding은 동일한 시나리오 이해 아이디어 위에 구축되는 자연스러운 확장이다.
Grounding DINO 비교는 오라클 범주 입력을 사용하므로 직접적인 배포 비교라기보다는 유익한 상한 기준 참조로 읽는 것이 가장 좋다. 이는 여전히 도전 과제가 얼마나 시나리오 이해에서 비롯되고 얼마나 객체 위치 추정에서 비롯되는지를 명확히 하는 데 도움이 된다.
이 벤치마크는 MS-COCO와 LVIS 자연 이미지로 구축되어 의료 이미지, GUI, 위성 영상과 같은 다른 도메인은 향후 연구로 남겨둔다. 선택된 도메인 내에서 도메인 내 및 분포 외 분할은 이미 의미 있는 평가 격차를 드러낸다.

이 결과를 읽는 방법

본 논문은 visual grounding에 대한 강력하고 시의적절한 기여로 읽는 것이 가장 좋다. 이 논문은 현실적인 시나리오 이해 과제를 정의하고, 신중하게 검증된 벤치마크와 통제된 실험으로 이를 뒷받침하며, 커리큘럼 추론이 향후 일반화 연구를 위한 풍부한 기회를 남기면서도 위치 추정을 상당히 향상시킬 수 있음을 보여준다.