Improving Large Vision and Language Models by Learning from a Panel of Peers
publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.
International Conference on Computer Vision. ICCV 2025. Honolulu, HI.
연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교와 Adobe Research의 연구진은 인간이 레이블링한 피드백 데이터를 수집하는 비용이 많이 들고 시간이 오래 걸리는 과정을 우회하는, AI 비전-언어 모델을 위한 새로운 학습 기법을 개발했다. Panel-of-Peers (PoP)라고 불리는 이 시스템은 유사한 AI 모델들의 작은 그룹을 — 이 경우 서로 다른 기반 언어 모델 위에 구축된 LLaVA 모델의 세 가지 변형을 — 모아, 인간 주석자나 더 강력한 단일 "교사" 모델에 의존하는 대신 서로의 시각적 질문에 대한 답변을 채점하도록 함으로써 작동한다. 그룹의 각 모델은 레이블이 없는 데이터셋에서 추출한 이미지-질문 쌍에 대한 후보 응답을 생성하고, 다른 모델들이 그 응답을 유용성과 정확성 같은 차원에서 점수를 매기며, 그 결과로 순위가 매겨진 쌍이 세 차례 반복되는 순환 과정을 통해 그룹 내 모든 모델을 미세조정하는 데 사용된다. 차트 읽기와 OCR에서 수학 추론과 환각 탐지에 이르는 작업을 다루는 15개의 표준 비전-언어 벤치마크에 걸친 테스트에서, 이 접근법은 모델 패널의 평균 점수를 48%에서 57%로 끌어올렸는데, 연구진은 이 향상이 비슷한 데이터 규모에서 인간이 선별하거나 기계가 생성한 선호 데이터를 사용하는 비슷한 방법들이 달성한 것을 능가한다고 언급한다. 연구팀은 또한 OCR 학습 데이터의 대부분을 제거하여 의도적으로 약화시킨 모델이 그것을 유지한 동료들로부터 학습하여 해당 능력을 회복할 수 있음을 보여주었는데, 이는 이 프레임워크가 일반적인 성능 향상뿐만 아니라 모델 간에 특정 기술을 전이할 수 있음을 시사한다. 이 연구가 중요한 이유는 멀티모달 AI를 위한 인간 선호 데이터를 생산하는 것이 여전히 비용이 많이 들고 확장하기 어려우며, 단일 모델이 자신의 출력을 평가하는 데 의존하는 자기 개선 방법은 기존 오류를 강화하는 경향이 있기 때문이다. 대략 비슷한 강도의 다양한 모델 그룹을 사용하여 서로를 교차 평가하는 것은 훨씬 더 크고 비싼 최첨단 모델을 감독자로 접근할 필요 없이 그 문제를 줄이는 것으로 보인다.

초록

대규모 비전 및 언어 모델(LVLM)에 대한 전통적인 정렬 방법은 주로 인간이 선별한 선호 데이터에 의존한다. 인간이 생성한 선호 데이터는 비용이 많이 들고, 기계가 생성한 선호 데이터는 품질이 제한적이며, 자기 지도(self-supervised) 선호 데이터는 종종 환각(hallucination)을 유발한다. 이러한 한계를 극복하기 위해, 우리는 인간 간의 협력 학습에서 영감을 받은 새로운 Panel-of-Peers 학습 프레임워크를 제안한다. 이 접근법은 LVLM 패널을 활용하여, 각 모델이 반복적인 자기 개선 과정을 통해 그들의 집단적 출력을 평가하고 그로부터 학습하도록 한다. 동료 평가(peer review) 시스템을 시뮬레이션함으로써, 우리의 모델들은 선별된 프롬프트 집합에 응답하여 출력을 생성하고 평가하며 개선하여, 교실 학습 환경을 모방한다. 우리는 이 방법론이 대규모 인간 레이블 데이터셋을 요구하지 않으면서 모델 성능을 향상시킴을 입증한다. 우리의 실험은 여러 벤치마크에 걸쳐 상당한 개선을 보여주며, 자기 지도 정렬에 대한 확장 가능한 대안으로서 동료 평가의 잠재력을 입증한다. 특히, 우리는 Panel-of-Peers가 15개 벤치마크의 평균 점수를 48%에서 57%로 높임을 보인다.

세부 정보

비고
Accepted at ICCV 2025

인용

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}