Improving Large Vision and Language Models by Learning from a Panel of Peers
Resumo do comunicado de imprensa
Pesquisadores da Rice University e da Adobe Research desenvolveram uma nova técnica de treinamento para modelos de visão e linguagem de IA que contorna o processo caro e demorado de coletar dados de feedback rotulados por humanos. O sistema, chamado Panel-of-Peers (PoP), funciona reunindo um pequeno grupo de modelos de IA semelhantes — neste caso, três variantes do modelo LLaVA construídas sobre diferentes modelos de linguagem subjacentes — e fazendo com que eles avaliem as respostas uns dos outros a perguntas visuais, em vez de depender de anotadores humanos ou de um único modelo "professor" mais poderoso. Cada modelo do grupo gera respostas candidatas a pares imagem-pergunta extraídos de um conjunto de dados não rotulado, os outros modelos pontuam essas respostas em dimensões como utilidade e correção, e os pares ordenados resultantes são usados para ajustar finamente todos os modelos do grupo por meio de um laço iterativo repetido três vezes. Em testes em 15 benchmarks padrão de visão e linguagem cobrindo tarefas que vão da leitura de gráficos e OCR ao raciocínio matemático e à detecção de alucinações, a abordagem elevou a pontuação média do painel de modelos de 48% para 57% — um ganho que, segundo os pesquisadores, excede o que métodos comparáveis que usam dados de preferência curados por humanos ou gerados por máquina alcançaram em escalas de dados semelhantes. A equipe também mostrou que um modelo deliberadamente prejudicado pela remoção da maior parte de seus dados de treinamento de OCR pôde recuperar essa capacidade ao aprender com pares que a mantiveram, sugerindo que o framework pode transferir habilidades específicas entre modelos, e não apenas melhorar o desempenho geral. O trabalho é relevante porque produzir dados de preferência humana para a IA multimodal continua sendo custoso e difícil de escalar, e os métodos de autoaprimoramento que dependem de um único modelo avaliando suas próprias saídas tendem a reforçar erros existentes; usar um grupo diverso de modelos de força aproximadamente igual para se avaliarem mutuamente parece reduzir esse problema sem exigir acesso a um modelo de fronteira muito maior e mais caro como supervisor.
resumo
Os métodos tradicionais de alinhamento para Grandes Modelos de Visão e Linguagem (LVLMs) dependem principalmente de dados de preferência curados por humanos. Os dados de preferência gerados por humanos são custosos; os dados de preferência gerados por máquina têm qualidade limitada; e os dados de preferência auto-supervisionados frequentemente introduzem alucinações. Para superar essas limitações, propomos um novo framework de aprendizado Panel-of-Peers inspirado no aprendizado colaborativo entre humanos. Essa abordagem aproveita um painel de LVLMs, cada um avaliando e aprendendo com suas saídas coletivas por meio de um processo iterativo de autoaprimoramento. Ao simular um sistema de revisão por pares, nossos modelos geram, avaliam e refinam saídas em resposta a um conjunto curado de prompts, imitando um ambiente de aprendizado de sala de aula. Demonstramos que essa metodologia aprimora o desempenho do modelo sem exigir conjuntos de dados extensos rotulados por humanos. Nossos experimentos mostram melhorias significativas em múltiplos benchmarks, demonstrando o potencial das avaliações por pares como uma alternativa escalável ao alinhamento auto-supervisionado. Notavelmente, mostramos que o Panel-of-Peers aumenta a pontuação média em quinze benchmarks de 48% para 57%
detalhes
citação
@inproceedings{hernandez2025improving,
title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
year = {2025},
booktitle = {International Conference on Computer Vision. ICCV 2025},
url = {https://arxiv.org/abs/2509.01610},
}