Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez; Jing Shi; Simon Jenni; Vicente Ordonez; Kushal Kafle

← 返回论文列表

publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.

International Conference on Computer Vision. ICCV 2025. Honolulu, HI.

论文 pdf 原始 bibtex

实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气，面向普通读者撰写。

莱斯大学和 Adobe Research 的研究人员为 AI 视觉-语言模型开发了一种新的训练技术，绕过了收集人工标注反馈数据这一昂贵且耗时的过程。该系统名为 Panel-of-Peers（PoP），其工作方式是组建一小组相似的 AI 模型——在本例中是基于不同底层语言模型构建的三个 LLaVA 变体——并让它们相互评分对视觉问题的回答，而不是依赖人工标注者或单个更强大的“教师”模型。组中的每个模型针对从未标注数据集中抽取的图像-问题对生成候选回答，其他模型在有用性和正确性等维度上为这些回答打分，所得到的排序对被用于通过迭代循环（重复三次）对组中所有模型进行微调。在涵盖图表阅读、OCR、数学推理和幻觉检测等任务的 15 个标准视觉-语言基准上进行测试，该方法将模型组的平均分数从 48% 提升到了 57%——研究人员指出，这一提升超过了同类方法在相似数据规模下使用人工策划或机器生成的偏好数据所取得的成绩。该团队还表明，一个通过移除大部分 OCR 训练数据而被故意削弱的模型，可以通过向保留了该能力的同伴学习来恢复这一能力，这表明该框架能够在模型之间迁移特定技能，而不仅仅是提升整体性能。这项工作之所以重要，是因为为多模态 AI 生成人类偏好数据仍然成本高昂且难以扩展，而依赖单个模型评估自身输出的自我提升方法往往会强化已有的错误；使用一组实力大致相当的多样化模型相互交叉评估，似乎可以在无需访问更大、更昂贵的前沿模型作为监督者的情况下缓解这一问题。

摘要

针对大型视觉与语言模型（LVLM）的传统对齐方法主要依赖于人工策划的偏好数据。人工生成的偏好数据成本高昂；机器生成的偏好数据质量有限；而自监督的偏好数据往往会引入幻觉。为克服这些局限，我们提出了一种新颖的 Panel-of-Peers 学习框架，其灵感来自人类之间的协作学习。该方法利用一组 LVLM，每个模型通过迭代式的自我提升过程，评估并从它们的集体输出中学习。通过模拟同行评审系统，我们的模型针对一组精心策划的提示生成、评估并优化输出，模仿课堂学习环境。我们证明，这种方法无需大量人工标注的数据集即可提升模型性能。我们的实验在多个基准上显示出显著改进，证明了同行评估作为自监督对齐的可扩展替代方案的潜力。值得注意的是，我们表明 Panel-of-Peers 将十五个基准上的平均分数从 48% 提升到了 57%

详情

备注: Accepted at ICCV 2025

引用

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}