Improving Large Vision and Language Models by Learning from a Panel of Peers
publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.
International Conference on Computer Vision. ICCV 2025. Honolulu, HI.
Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University и Adobe Research разработали новую технику обучения для ИИ-моделей зрения и языка, которая обходит дорогостоящий и трудоёмкий процесс сбора размеченных людьми данных обратной связи. Система, называемая Panel-of-Peers (PoP), работает путём сборки небольшой группы похожих ИИ-моделей — в данном случае трёх вариантов модели LLaVA, построенных на разных базовых языковых моделях — и заставляет их оценивать ответы друг друга на визуальные вопросы, а не полагаться на разметчиков-людей или единую более мощную модель-«учитель». Каждая модель в группе генерирует кандидатные ответы на пары изображение-вопрос, взятые из неразмеченного набора данных, другие модели оценивают эти ответы по таким измерениям, как полезность и корректность, а полученные ранжированные пары используются для дообучения всех моделей в группе через итеративный цикл, повторяемый три раза. Тестирование на 15 стандартных бенчмарках зрения и языка, охватывающих задачи от чтения диаграмм и OCR до математического рассуждения и обнаружения галлюцинаций, повысило средний показатель панели моделей с 48% до 57% — прирост, который, как отмечают исследователи, превышает то, чего достигали сопоставимые методы, использующие отобранные людьми или сгенерированные машиной данные предпочтений при аналогичных масштабах данных. Команда также показала, что модель, намеренно ослабленная удалением большей части её обучающих данных по OCR, могла восстановить эту способность, обучаясь у партнёров, которые её сохранили, что предполагает, что эта структура может передавать конкретные навыки между моделями, а не только улучшать общую производительность. Работа важна, поскольку производство данных человеческих предпочтений для мультимодального ИИ остаётся дорогостоящим и трудно масштабируемым, а методы самосовершенствования, которые опираются на единую модель, оценивающую собственные выходы, склонны закреплять существующие ошибки; использование разнообразной группы моделей примерно равной силы для перекрёстной оценки друг друга, по-видимому, уменьшает эту проблему, не требуя доступа к гораздо более крупной и дорогой передовой модели в качестве супервизора.

аннотация

Традиционные методы выравнивания (alignment) для больших моделей зрения и языка (Large Vision and Language Models, LVLMs) в основном опираются на данные предпочтений, отобранные людьми. Сгенерированные людьми данные предпочтений дороги; сгенерированные машиной данные предпочтений ограничены по качеству; а самообучаемые (self-supervised) данные предпочтений часто вносят галлюцинации. Чтобы преодолеть эти ограничения, мы предлагаем новую обучающую структуру Panel-of-Peers, вдохновлённую совместным обучением среди людей. Этот подход задействует панель LVLM, каждая из которых оценивает и учится на их коллективных выходах в ходе итеративного процесса самосовершенствования. Имитируя систему рецензирования (peer review), наши модели генерируют, оценивают и уточняют выходы в ответ на отобранный набор промптов, воспроизводя учебную среду классной комнаты. Мы демонстрируем, что эта методология повышает производительность модели без необходимости в обширных размеченных людьми наборах данных. Наши эксперименты показывают значительное улучшение на нескольких бенчмарках, демонстрируя потенциал взаимных оценок как масштабируемой альтернативы самообучаемому выравниванию. Примечательно, что мы показываем, что Panel-of-Peers повышает средний показатель на пятнадцати бенчмарках с 48% до 57%.

подробности

комментарий
Accepted at ICCV 2025

цитирование

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}