Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations

Ziyan Yang; Kushal Kafle; Franck Dernoncourt; Vicente Ordonez

← 논문 목록으로 돌아가기

publication

Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations

Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2023. Vancouver, Canada.

논문 code demo pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교와 Adobe Research의 연구진은 텍스트 설명이 주어졌을 때 AI 비전-언어 모델이 이미지 속 객체와 영역을 정확히 짚어내는 방식을 개선하는 새로운 학습 기법을 개발했다. 그들이 다룬 문제는 인터넷 규모의 이미지-텍스트 쌍으로 학습된 대규모 모델이 단어를 이미지 영역에 느슨하게 매칭할 수 있지만 정밀하게 위치를 찾도록 명시적으로 학습되지는 않는다는 점이다. Attention Mask Consistency (AMC)라고 불리는 이 팀의 접근법은 모델이 이미지와 텍스트가 일치하는지 결정할 때 자연스럽게 생성하는 그래디언트 기반 "설명 히트맵"을 살펴본 다음, 그 히트맵이 이미지의 잘못된 부분 — 즉, 인간이 주석을 단 영역 밖의 영역 — 을 강조할 때마다 학습 중에 모델에 페널티를 부과함으로써 작동한다. 이 페널티는 모델이 히트맵 에너지를 주석 영역 밖이 아니라 안에 집중하도록 밀어붙이는 마진 손실의 형태를 띤다. 결정적으로, 이 방법은 대부분의 경쟁 접근법이 작동하는 방식인 중간 매개체로서의 객체 검출기를 요구하지 않으며, 기존 모델 — 이 경우 ALBEF — 위에 처음부터 재학습할 필요 없이 얹을 수 있다. Flickr30k 시각적 고정 벤치마크에서 AMC로 학습된 모델은 86.49%의 정확도에 도달했는데, 이는 비슷한 감독 하의 이전 최고 발표 결과보다 5%포인트 이상 향상된 것이며, RefCOCO+ 참조 표현 데이터셋에서도 새로운 기록을 세웠다. 이 연구가 중요한 이유는 학습된 객체 검출기의 비싼 인프라를 요구하지 않으면서 비전-언어 모델의 더 나은 공간 추론으로 가는 비교적 가벼운 길을 제공하기 때문이다.

초록

우리는 비교적 작은 고정(grounding) 데이터셋에 대해 인간이 제공한 영역 수준 주석과 그래디언트 기반 설명이 일관되도록 결합 비전-언어 모델을 조정하기 위한 마진 기반 손실(margin-based loss)을 제안한다. 우리는 이 목표를 Attention Mask Consistency (AMC)라고 부르며, 이것이 객체 검출기의 출력을 점수화하기 위해 비전-언어 모델을 사용하는 데 의존하는 이전 방법들보다 우수한 시각적 고정 결과를 산출함을 입증한다. 특히, 표준 비전-언어 모델링 목표 위에 AMC로 학습된 모델은 Flickr30k 시각적 고정 벤치마크에서 86.49%라는 최첨단 정확도를 달성하는데, 이는 동일한 수준의 감독 하에서 학습된 이전 최고 모델 대비 5.38%의 절대적 향상이다. 우리 접근법은 또한 참조 표현 이해(referring expression comprehension)를 위한 확립된 벤치마크에서도 매우 우수한 성능을 보여, RefCOCO+의 easy 테스트에서 80.34% 정확도를, 어려운 분할에서 64.55%를 달성한다. AMC는 효과적이고 구현이 쉬우며, 어떤 비전-언어 모델에도 채택될 수 있고 어떤 유형의 영역 주석도 사용할 수 있다는 점에서 범용적이다.

세부 정보

비고: CVPR 2023. Fix ReferIt results. Code: https://github.com/uvavision/AMC-grounding Project Webpage: https://vislang.ai/amc

인용

@inproceedings{yang2023improving,
  title = {Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations},
  author = {Yang, Ziyan and Kafle, Kushal and Dernoncourt, Franck and Ordonez, Vicente},
  year = {2023},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2023},
  url = {https://arxiv.org/abs/2206.15462},
}