Learning from Synthetic Data for Visual Grounding
Tóm tắt thông cáo báo chí
Các nhà nghiên cứu tại Rice University, University of Maryland và UC Irvine đã phát triển một quy trình gọi là SynGround tự động tạo ra khối lượng lớn dữ liệu huấn luyện tổng hợp để giúp các hệ thống AI kết nối tốt hơn các mô tả văn bản với những vùng cụ thể trong ảnh — một nhiệm vụ được gọi là định vị thị giác. Thách thức mà họ giải quyết là trong khi các cặp ảnh-văn bản có thể được thu thập từ web ở quy mô lớn, thì các chú thích ở cấp độ vùng cần thiết cho việc định vị (các bounding box liên kết cụm từ với các vùng ảnh) lại tốn kém và chậm chạp khi làm thủ công; bộ dữ liệu Visual Genome, một benchmark tiêu chuẩn, đã mất 33.000 nhân công làm trong sáu tháng để xây dựng. SynGround vượt qua nút thắt cổ chai này bằng cách nối chuỗi nhiều mô hình đã tiền huấn luyện hiện có: một mô hình đa phương thức lớn (LLaVA) chú thích các ảnh thực một cách chi tiết, các mô tả đó được đưa vào một bộ sinh ảnh từ văn bản (Stable Diffusion) để tạo ra các ảnh tổng hợp, một mô hình ngôn ngữ lớn (Vicuna) trích xuất các cụm danh từ ngắn từ các chú thích, và một bộ phát hiện đối tượng với từ vựng mở (GLIP) vẽ các bounding box quanh các đối tượng được tham chiếu trong các ảnh tổng hợp. Thông qua các thí nghiệm có hệ thống, nhóm nhận thấy rằng các chú thích ảnh chi tiết tạo ra các ảnh tổng hợp tốt hơn nhiều cho nhiệm vụ này so với việc nối chuỗi văn bản đơn giản hoặc các bản tóm tắt do mô hình ngôn ngữ lớn tạo ra, và rằng các cụm từ được trích xuất ngắn hơn hoạt động tốt hơn các cụm từ dài hơn. Khi được dùng để tinh chỉnh hai mô hình thị giác-ngôn ngữ có sẵn, ALBEF và BLIP, SynGround đã cải thiện độ chính xác định vị lần lượt 4,81 và 17,11 điểm phần trăm trên các benchmark RefCOCO+ và Flickr30k; việc kết hợp dữ liệu tổng hợp với dữ liệu thực đã chú thích còn đẩy hiệu năng lên cao hơn nữa, vượt qua mức tốt nhất hiện nay trước đó. Công trình cũng cho thấy phương pháp này có thể hoạt động với mức độ phụ thuộc tối thiểu vào ảnh thực và mở rộng quy mô thuận lợi với nhiều dữ liệu hơn, cho thấy rằng các quy trình tổng hợp tự động có thể trở thành một sự thay thế thực tế cho việc chú thích thủ công tốn kém trong huấn luyện các hệ thống định vị.
tóm tắt
Bài báo này nghiên cứu sâu rộng tính hiệu quả của dữ liệu huấn luyện tổng hợp trong việc cải thiện khả năng của các mô hình thị giác-và-ngôn ngữ trong việc định vị các mô tả văn bản vào các vùng ảnh. Chúng tôi khám phá nhiều chiến lược khác nhau để tạo ra các cặp ảnh-văn bản và các bộ ba ảnh-văn bản-hộp một cách tốt nhất bằng cách sử dụng một loạt các mô hình đã được tiền huấn luyện dưới những bối cảnh khác nhau và với mức độ phụ thuộc khác nhau vào dữ liệu thực. Thông qua các phân tích so sánh với dữ liệu tổng hợp, dữ liệu thực và dữ liệu thu thập từ web, chúng tôi xác định các yếu tố góp phần tạo ra sự khác biệt về hiệu năng, và đề xuất SynGround, một quy trình hiệu quả để tạo ra dữ liệu tổng hợp hữu ích cho định vị thị giác. Các phát hiện của chúng tôi cho thấy SynGround có thể cải thiện khả năng định vị của các mô hình thị giác-và-ngôn ngữ có sẵn và mang lại tiềm năng tạo dữ liệu ở quy mô lớn tùy ý. Đặc biệt, dữ liệu được tạo ra bằng SynGround cải thiện độ chính xác trò chơi chỉ điểm (pointing game) của các mô hình ALBEF và BLIP đã tiền huấn luyện lần lượt là 4,81% và 17,11% điểm phần trăm tuyệt đối, trên các benchmark RefCOCO+ và Flickr30k.
chi tiết
trích dẫn
@inproceedings{he2025learning,
title = {Learning from Synthetic Data for Visual Grounding},
author = {He, Ruozhen and Cascante-Bonilla, Paola and Yang, Ziyan and Berg, Alexander C. and Ordonez, Vicente},
year = {2025},
booktitle = {British Machine Vision Conference. BMVC 2025},
url = {https://arxiv.org/abs/2403.13804},
}
câu hỏi, đóng góp chính và hạn chế của bài báo này được tạo tự động
Câu hỏi mà bài báo này giúp trả lời
- SynGround là gì và nó giải quyết vấn đề gì? SynGround là một quy trình dữ liệu tổng hợp cho định vị thị giác, tạo ra các bộ ba ảnh-văn bản-hộp nhằm giảm sự phụ thuộc vào các chú thích vùng thủ công tốn kém.
- SynGround tạo ra dữ liệu huấn luyện như thế nào? Nó sử dụng một mô hình mô tả ảnh để tạo ra các chú thích chi tiết, một bộ sinh ảnh từ văn bản để tổng hợp ảnh, một mô hình ngôn ngữ lớn để trích xuất các cụm từ định vị ngắn, và một bộ phát hiện với từ vựng mở để tạo ra các hộp cho những cụm từ đó.
- Tại sao các chú thích chi tiết lại quan trọng trong quy trình? Các thí nghiệm cho thấy các chú thích Image2Text chi tiết tạo ra các ảnh tổng hợp hữu ích hơn cho việc định vị so với việc nối chuỗi chú thích đơn giản hoặc các bản tóm tắt Text2Text.
- SynGround cải thiện định vị thị giác đến mức nào? Dữ liệu tổng hợp từ SynGround cải thiện ALBEF thêm 4,81 điểm phần trăm và BLIP thêm 17,11 điểm phần trăm tính trung bình trên các đánh giá trò chơi chỉ điểm RefCOCO+ và Flickr30k.
- SynGround có thể giảm sự phụ thuộc vào ảnh thực không? Có, bài báo báo cáo các biến thể với mức độ phụ thuộc vào ảnh thực ít hơn nhiều và cho thấy dữ liệu tổng hợp vượt trội hơn dữ liệu thu thập từ web tương đương đối với việc định vị thị giác.
Đóng góp chính
- Bài báo cung cấp một nghiên cứu có hệ thống về cách tổng hợp dữ liệu ảnh-văn bản và ảnh-văn bản-hộp hữu ích cho định vị thị giác thay vì chỉ trình bày một công thức dữ liệu tổng hợp duy nhất.
- SynGround kết hợp các mô hình đã tiền huấn luyện mạnh mẽ cho việc chú thích, sinh ảnh, trích xuất cụm từ và phát hiện với từ vựng mở thành một quy trình thực tế để giám sát định vị có thể mở rộng quy mô.
- Các thí nghiệm xác định những lựa chọn thiết kế cụ thể có ý nghĩa quan trọng, bao gồm các mô tả ảnh chi tiết cho việc sinh ảnh và các cụm từ được trích xuất ngắn hơn cho việc giám sát định vị.
- Bài báo cho thấy các bộ ba tổng hợp có thể cải thiện hai mô hình thị giác-ngôn ngữ khác nhau, ALBEF và BLIP, củng cố tính tổng quát của phương pháp vượt ra ngoài một kiến trúc duy nhất.
- Phép so sánh với dữ liệu thu thập từ web Conceptual Captions cho thấy dữ liệu tổng hợp có mục tiêu có thể hiệu quả hơn cho việc định vị so với việc chỉ đơn giản mở rộng quy mô dữ liệu ảnh-văn bản chung chung.
Hạn chế và lưu ý
- SynGround thừa hưởng một số hạn chế từ các bộ chú thích, bộ sinh ảnh, các mô hình ngôn ngữ lớn và các bộ phát hiện đã tiền huấn luyện mà nó sử dụng, nhưng điều đó cũng có nghĩa là quy trình có thể tự nhiên cải thiện khi các mô hình thành phần đó trở nên mạnh hơn.
- Các hộp và chú thích tổng hợp chưa hoàn toàn sánh được với độ chính xác và sự đa dạng của các chú thích Visual Genome do con người tạo ra, nhưng những lợi ích về hiệu năng cho thấy chúng đã đủ hữu ích để giảm đáng kể áp lực chú thích.
- Một số người hoặc khung cảnh được tạo ra có thể chứa các hiện vật thị giác (artifact), đây là một vấn đề đã biết của việc sinh ảnh tổng hợp; những cải thiện về định vị cho thấy quy trình vẫn hiệu quả bất chấp những mẫu chưa hoàn hảo thỉnh thoảng xuất hiện.
- Nghiên cứu chủ yếu tập trung vào định vị thị giác kiểu trò chơi chỉ điểm với ALBEF và BLIP, để dành các hệ thống dự đoán cụm từ-hộp và các kiến trúc đa phương thức mới hơn làm các mục tiêu tiếp nối đầy hứa hẹn.
- Quy trình có nhiều giai đoạn và lựa chọn thiết kế, nhưng các phân tích loại bỏ của bài báo làm cho những lựa chọn đó có thể diễn giải được và cung cấp một công thức thực tế mạnh mẽ cho các bộ dữ liệu định vị tổng hợp trong tương lai.
Cách diễn giải kết quả này
Bài báo này nên được hiểu như một luận cứ thực nghiệm mạnh mẽ cho việc giám sát tổng hợp trong định vị thị giác: SynGround cho thấy rằng các bộ ba ảnh-văn bản-hộp được tạo ra một cách cẩn thận có thể cải thiện đáng kể việc định vị, bổ trợ cho dữ liệu thực, và mang lại một con đường có thể mở rộng quy mô vượt ra ngoài việc chú thích vùng thủ công tốn kém.