Improving Large Vision and Language Models by Learning from a Panel of Peers
Tóm tắt thông cáo báo chí
Các nhà nghiên cứu từ Rice University và Adobe Research đã phát triển một kỹ thuật huấn luyện mới cho các mô hình AI thị giác-ngôn ngữ, né tránh được quá trình tốn kém và tốn thời gian của việc thu thập dữ liệu phản hồi được con người gán nhãn. Hệ thống, có tên Panel-of-Peers (PoP), hoạt động bằng cách tập hợp một nhóm nhỏ các mô hình AI tương tự nhau — trong trường hợp này là ba biến thể của mô hình LLaVA được xây dựng trên các mô hình ngôn ngữ nền tảng khác nhau — và để chúng chấm điểm câu trả lời của nhau cho các câu hỏi thị giác thay vì dựa vào người gán nhãn hoặc một mô hình "giáo viên" mạnh hơn duy nhất. Mỗi mô hình trong nhóm tạo ra các câu trả lời ứng viên cho các cặp ảnh-câu hỏi rút từ một bộ dữ liệu không gán nhãn, các mô hình khác chấm điểm những câu trả lời đó trên các chiều như tính hữu ích và độ chính xác, và các cặp được xếp hạng thu được được dùng để tinh chỉnh tất cả các mô hình trong nhóm thông qua một vòng lặp được lặp lại ba lần. Việc thử nghiệm trên 15 benchmark thị giác-ngôn ngữ tiêu chuẩn bao phủ các tác vụ từ đọc biểu đồ và OCR đến suy luận toán học và phát hiện ảo giác, cách tiếp cận này đã nâng điểm trung bình của hội đồng mô hình từ 48% lên 57% — một mức tăng mà các nhà nghiên cứu lưu ý là vượt qua những gì các phương pháp tương đương sử dụng dữ liệu sở thích được con người tuyển chọn hoặc do máy tạo ra đã đạt được ở quy mô dữ liệu tương tự. Nhóm cũng cho thấy rằng một mô hình bị cố tình làm suy yếu bằng cách loại bỏ phần lớn dữ liệu huấn luyện OCR của nó có thể khôi phục khả năng đó bằng cách học hỏi từ các đồng nghiệp vẫn giữ lại nó, gợi ý rằng khung này có thể chuyển giao các kỹ năng cụ thể giữa các mô hình, chứ không chỉ cải thiện hiệu năng tổng thể. Công trình có ý nghĩa bởi việc tạo ra dữ liệu sở thích của con người cho AI đa phương thức vẫn còn tốn kém và khó mở rộng, và các phương pháp tự cải thiện dựa vào một mô hình duy nhất đánh giá các đầu ra của chính nó có xu hướng củng cố các lỗi sẵn có; việc sử dụng một nhóm đa dạng gồm các mô hình có sức mạnh xấp xỉ ngang nhau để đánh giá chéo lẫn nhau dường như làm giảm vấn đề đó mà không đòi hỏi tiếp cận một mô hình tiên phong lớn hơn, đắt đỏ hơn nhiều làm người giám sát.
tóm tắt
Các phương pháp căn chỉnh truyền thống cho Large Vision and Language Models (LVLMs) chủ yếu dựa vào dữ liệu sở thích được tuyển chọn bởi con người. Dữ liệu sở thích do con người tạo ra thì tốn kém; dữ liệu sở thích do máy tạo ra thì hạn chế về chất lượng; và dữ liệu sở thích tự giám sát thường gây ra ảo giác. Để vượt qua những hạn chế này, chúng tôi đề xuất một khung học Panel-of-Peers mới lấy cảm hứng từ việc học hợp tác giữa con người. Cách tiếp cận này tận dụng một hội đồng các LVLM, mỗi mô hình đánh giá và học hỏi từ các đầu ra tập thể của chúng thông qua một quá trình tự cải thiện lặp đi lặp lại. Bằng cách mô phỏng một hệ thống bình duyệt đồng nghiệp, các mô hình của chúng tôi tạo ra, đánh giá và tinh chỉnh các đầu ra để đáp lại một tập lời nhắc được tuyển chọn, mô phỏng một môi trường học tập trong lớp học. Chúng tôi chứng minh rằng phương pháp luận này nâng cao hiệu năng mô hình mà không đòi hỏi các bộ dữ liệu được con người gán nhãn rộng lớn. Các thí nghiệm của chúng tôi cho thấy sự cải thiện đáng kể trên nhiều benchmark, chứng minh tiềm năng của các đánh giá đồng nghiệp như một giải pháp thay thế có khả năng mở rộng cho việc căn chỉnh tự giám sát. Đáng chú ý, chúng tôi cho thấy rằng Panel-of-Peers tăng điểm trung bình trên mười lăm benchmark từ 48% lên 57%
chi tiết
trích dẫn
@inproceedings{hernandez2025improving,
title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
year = {2025},
booktitle = {International Conference on Computer Vision. ICCV 2025},
url = {https://arxiv.org/abs/2509.01610},
}