Improving Large Vision and Language Models by Learning from a Panel of Peers
publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.
International Conference on Computer Vision. ICCV 2025. Honolulu, HI.
Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University e da Adobe Research desenvolveram uma nova técnica de treinamento para modelos de visão e linguagem de IA que contorna o processo caro e demorado de coletar dados de feedback rotulados por humanos. O sistema, chamado Panel-of-Peers (PoP), funciona reunindo um pequeno grupo de modelos de IA semelhantes — neste caso, três variantes do modelo LLaVA construídas sobre diferentes modelos de linguagem subjacentes — e fazendo com que eles avaliem as respostas uns dos outros a perguntas visuais, em vez de depender de anotadores humanos ou de um único modelo "professor" mais poderoso. Cada modelo do grupo gera respostas candidatas a pares imagem-pergunta extraídos de um conjunto de dados não rotulado, os outros modelos pontuam essas respostas em dimensões como utilidade e correção, e os pares ordenados resultantes são usados para ajustar finamente todos os modelos do grupo por meio de um laço iterativo repetido três vezes. Em testes em 15 benchmarks padrão de visão e linguagem cobrindo tarefas que vão da leitura de gráficos e OCR ao raciocínio matemático e à detecção de alucinações, a abordagem elevou a pontuação média do painel de modelos de 48% para 57% — um ganho que, segundo os pesquisadores, excede o que métodos comparáveis que usam dados de preferência curados por humanos ou gerados por máquina alcançaram em escalas de dados semelhantes. A equipe também mostrou que um modelo deliberadamente prejudicado pela remoção da maior parte de seus dados de treinamento de OCR pôde recuperar essa capacidade ao aprender com pares que a mantiveram, sugerindo que o framework pode transferir habilidades específicas entre modelos, e não apenas melhorar o desempenho geral. O trabalho é relevante porque produzir dados de preferência humana para a IA multimodal continua sendo custoso e difícil de escalar, e os métodos de autoaprimoramento que dependem de um único modelo avaliando suas próprias saídas tendem a reforçar erros existentes; usar um grupo diverso de modelos de força aproximadamente igual para se avaliarem mutuamente parece reduzir esse problema sem exigir acesso a um modelo de fronteira muito maior e mais caro como supervisor.

resumo

Os métodos tradicionais de alinhamento para Grandes Modelos de Visão e Linguagem (LVLMs) dependem principalmente de dados de preferência curados por humanos. Os dados de preferência gerados por humanos são custosos; os dados de preferência gerados por máquina têm qualidade limitada; e os dados de preferência auto-supervisionados frequentemente introduzem alucinações. Para superar essas limitações, propomos um novo framework de aprendizado Panel-of-Peers inspirado no aprendizado colaborativo entre humanos. Essa abordagem aproveita um painel de LVLMs, cada um avaliando e aprendendo com suas saídas coletivas por meio de um processo iterativo de autoaprimoramento. Ao simular um sistema de revisão por pares, nossos modelos geram, avaliam e refinam saídas em resposta a um conjunto curado de prompts, imitando um ambiente de aprendizado de sala de aula. Demonstramos que essa metodologia aprimora o desempenho do modelo sem exigir conjuntos de dados extensos rotulados por humanos. Nossos experimentos mostram melhorias significativas em múltiplos benchmarks, demonstrando o potencial das avaliações por pares como uma alternativa escalável ao alinhamento auto-supervisionado. Notavelmente, mostramos que o Panel-of-Peers aumenta a pontuação média em quinze benchmarks de 48% para 57%

detalhes

comentário
Accepted at ICCV 2025

citação

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}