Learning from Synthetic Data for Visual Grounding
보도 자료 요약
라이스 대학교, University of Maryland, UC Irvine의 연구자들은 AI 시스템이 텍스트 설명을 이미지 내 특정 영역에 더 잘 연결하도록 돕기 위해 — 시각 그라운딩이라 알려진 작업 — 대량의 합성 학습 데이터를 자동으로 생성하는 SynGround라는 파이프라인을 개발했다. 이들이 다룬 과제는, 이미지-텍스트 쌍은 웹에서 대규모로 스크랩할 수 있는 반면, 그라운딩에 필요한 영역 수준의 주석(구절을 이미지 영역에 연결하는 바운딩 박스)은 손으로 만들기에 비싸고 느리다는 점이다. 표준 벤치마크인 Visual Genome 데이터셋은 구축하는 데 33,000명의 작업자가 6개월이 걸렸다. SynGround는 여러 기존 사전학습 모델을 연결함으로써 이 병목을 우회한다. 대형 멀티모달 모델(LLaVA)이 실제 이미지를 상세히 캡션하고, 그 설명을 텍스트-이미지 생성기(Stable Diffusion)에 입력해 합성 이미지를 만들며, LLM(Vicuna)이 캡션에서 짧은 명사구를 추출하고, 개방형 어휘 객체 탐지기(GLIP)가 합성 이미지에서 언급된 객체 주위에 바운딩 박스를 그린다. 체계적인 실험을 통해 연구팀은 상세한 이미지 캡션이 단순한 텍스트 연결이나 LLM이 생성한 요약보다 이 작업에 훨씬 더 나은 합성 이미지를 생성하며, 더 짧게 추출된 구절이 더 긴 구절보다 더 잘 작동함을 발견했다. 기성 비전-언어 모델인 ALBEF와 BLIP를 미세조정하는 데 사용했을 때, SynGround는 RefCOCO+ 및 Flickr30k 벤치마크 전반에 걸쳐 위치 추정 정확도를 각각 4.81 및 17.11퍼센트 포인트만큼 향상시켰으며, 합성 데이터를 실제 주석 데이터와 결합하니 성능이 더욱 높아져 이전의 최첨단 성능을 능가했다. 이 연구는 또한 이 접근법이 실제 이미지에 대한 의존을 최소화하면서도 작동할 수 있고 더 많은 데이터에 따라 유리하게 확장됨을 보여주어, 자동화된 합성 파이프라인이 그라운딩 시스템 학습에서 비싼 사람의 주석을 실용적으로 대체할 수 있음을 시사한다.
초록
이 논문은 텍스트 설명을 이미지 영역에 그라운딩하는 비전-언어 모델의 능력을 향상시키기 위한 합성 학습 데이터의 효과를 광범위하게 조사한다. 우리는 다양한 설정과 실제 데이터에 대한 의존 정도를 달리하면서 일련의 사전학습 모델을 사용하여 이미지-텍스트 쌍과 이미지-텍스트-박스 삼중항을 가장 잘 생성하는 다양한 전략을 탐구한다. 합성, 실제, 웹 크롤링 데이터와의 비교 분석을 통해, 우리는 성능 차이에 기여하는 요인을 식별하고, 시각 그라운딩에 유용한 합성 데이터를 생성하는 효과적인 파이프라인인 SynGround를 제안한다. 우리의 연구 결과는 SynGround가 기성 비전-언어 모델의 위치 추정 능력을 향상시킬 수 있으며 임의로 큰 규모의 데이터 생성 가능성을 제공함을 보여준다. 특히, SynGround로 생성된 데이터는 RefCOCO+ 및 Flickr30k 벤치마크 전반에 걸쳐 사전학습된 ALBEF 및 BLIP 모델의 포인팅 게임 정확도를 각각 4.81% 및 17.11% 절대 퍼센트 포인트만큼 향상시킨다.
세부 정보
인용
@inproceedings{he2025learning,
title = {Learning from Synthetic Data for Visual Grounding},
author = {He, Ruozhen and Cascante-Bonilla, Paola and Yang, Ziyan and Berg, Alexander C. and Ordonez, Vicente},
year = {2025},
booktitle = {British Machine Vision Conference. BMVC 2025},
url = {https://arxiv.org/abs/2403.13804},
}
이 논문의 자동 생성된 질문, 주요 기여 및 한계
이 논문이 답하는 데 도움이 되는 질문
- SynGround란 무엇이며 어떤 문제를 다루는가? SynGround는 시각 그라운딩을 위한 합성 데이터 파이프라인으로, 비싼 사람의 영역 주석에 대한 의존을 줄이기 위해 이미지-텍스트-박스 삼중항을 생성한다.
- SynGround는 학습 데이터를 어떻게 생성하는가? 이미지 설명 모델로 상세한 캡션을 만들고, 텍스트-이미지 생성기로 이미지를 합성하며, LLM으로 짧은 그라운딩 구절을 추출하고, 개방형 어휘 탐지기로 그 구절에 대한 박스를 생성한다.
- 파이프라인에서 상세한 캡션이 왜 중요한가? 실험은 상세한 Image2Text 캡션이 단순한 캡션 연결이나 Text2Text 요약보다 그라운딩에 더 유용한 합성 이미지를 생성함을 보여준다.
- SynGround는 시각 그라운딩을 얼마나 향상시키는가? SynGround의 합성 데이터는 RefCOCO+ 및 Flickr30k 포인팅 게임 평가 전반에 걸쳐 평균적으로 ALBEF를 4.81퍼센트 포인트, BLIP를 17.11퍼센트 포인트만큼 향상시킨다.
- SynGround는 실제 이미지에 대한 의존을 줄일 수 있는가? 그렇다. 논문은 실제 이미지에 대한 의존이 훨씬 적은 변형들을 보고하며, 합성 데이터가 시각 그라운딩에서 그에 견줄 만한 웹 크롤링 데이터를 능가함을 보여준다.
주요 기여
- 이 논문은 하나의 합성 데이터 레시피를 보여주는 데 그치지 않고, 시각 그라운딩에 유용한 이미지-텍스트 및 이미지-텍스트-박스 데이터를 합성하는 방법에 대한 체계적인 연구를 제공한다.
- SynGround는 캡셔닝, 이미지 생성, 구절 추출, 개방형 어휘 탐지를 위한 강력한 사전학습 모델들을 확장 가능한 그라운딩 감독을 위한 실용적 파이프라인으로 결합한다.
- 실험은 생성을 위한 상세한 이미지 설명과 그라운딩 감독을 위한 더 짧게 추출된 구절을 포함하여, 중요한 구체적 설계 선택을 식별한다.
- 이 논문은 합성 삼중항이 서로 다른 두 비전-언어 모델인 ALBEF와 BLIP를 향상시킬 수 있음을 보여주어, 하나의 아키텍처를 넘어선 접근법의 일반성을 뒷받침한다.
- Conceptual Captions 웹 크롤링 데이터와의 비교는 표적화된 합성 데이터가 단순히 일반적인 이미지-텍스트 데이터를 확장하는 것보다 그라운딩에 더 효과적일 수 있음을 보여준다.
한계 및 유의 사항
- SynGround는 그것이 사용하는 사전학습된 캡셔너, 이미지 생성기, LLM, 탐지기로부터 일부 한계를 물려받지만, 이는 또한 그러한 구성 모델들이 강력해짐에 따라 파이프라인이 자연스럽게 개선될 수 있음을 의미한다.
- 합성 박스와 캡션은 사람의 Visual Genome 주석의 정밀도와 다양성에 완전히 미치지 못하지만, 성능 향상은 그것들이 이미 주석 부담을 상당히 줄일 만큼 충분히 유용함을 보여준다.
- 생성된 일부 사람이나 장면은 시각적 아티팩트를 포함할 수 있는데, 이는 합성 이미지 생성의 알려진 문제다. 그라운딩 개선은 가끔의 불완전한 샘플에도 불구하고 파이프라인이 효과적으로 유지됨을 시사한다.
- 이 연구는 주로 ALBEF와 BLIP를 사용한 포인팅 게임 방식의 시각 그라운딩에 초점을 맞추어, 구절-박스 예측 시스템과 최신 멀티모달 아키텍처를 유망한 후속 대상으로 남겨둔다.
- 파이프라인은 여러 단계와 설계 선택을 갖지만, 논문의 절제 실험은 그러한 선택을 해석 가능하게 만들고 향후 합성 그라운딩 데이터셋을 위한 강력한 실용적 레시피를 제공한다.
이 결과를 읽는 방법
이 논문은 시각 그라운딩에서 합성 감독에 대한 강력한 실증적 근거로 읽는 것이 가장 좋다. SynGround는 신중하게 생성된 이미지-텍스트-박스 삼중항이 위치 추정을 유의미하게 향상시키고, 실제 데이터를 보강하며, 비싼 사람의 영역 주석을 넘어서는 확장 가능한 경로를 제공할 수 있음을 보여준다.