Beyond Referring Expressions: Scenario Comprehension Visual Grounding
Tóm tắt thông cáo báo chí
Các nhà nghiên cứu từ Rice University, Johns Hopkins University và Northeastern University đã xác định một khoảng trống đáng kể trong cách các hệ thống AI thị giác được kiểm tra: các benchmark tiêu chuẩn cho "định vị thị giác" — khả năng khớp một mô tả văn bản với một vùng trong ảnh — thường dùng những cụm từ ngắn gọn, theo nghĩa đen như "chiếc găng tay da nâu mà người bắt bóng đang cầm," mà các mô hình thường có thể giải được chỉ đơn giản bằng cách nhận diện một danh mục đối tượng được nêu tên. Để kiểm tra áp lực xem các mô hình có thể xử lý ngôn ngữ thực tế và vòng vo hơn hay không, nhóm đã xây dựng một benchmark mới gọi là Referring Scenario Comprehension (RSC), trong đó mỗi truy vấn là một mô tả dài cỡ một đoạn văn được viết từ góc nhìn của người dùng — chẳng hạn, mô tả một người đang cố gắng xem giờ tại trạm xe buýt mà không hề nhắc đến từ "đồng hồ." Benchmark chứa khoảng 38.000 mẫu được chú thích lấy từ các ảnh MS-COCO và LVIS, bao gồm một tập kiểm tra được giữ riêng với các danh mục đối tượng hoàn toàn chưa từng thấy, và gắn nhãn mỗi mẫu theo năm trục độ khó bao gồm sự lộn xộn, kích thước đối tượng, sự chồng lấp, vị trí, và liệu danh mục mục tiêu có xuất hiện nhiều lần trong khung cảnh hay không. Khi nhóm đánh giá một loạt mô hình thị giác-ngôn ngữ hiện tại trên RSC — bao gồm GPT-4o, Claude 3.7 và một số hệ thống mã nguồn mở — tất cả đều gặp khó khăn nghiêm trọng, với ngay cả mô hình có sẵn tốt nhất cũng chỉ đạt độ chính xác định vị thấp hơn nhiều so với 30%, so với hơn 60% của hệ thống được xây dựng riêng cho mục đích này của các tác giả. Hệ thống đó, gọi là ScenGround, kết hợp tinh chỉnh có giám sát trên các mẫu dễ hơn để thiết lập một sơ đồ suy luận với một giai đoạn Reinforcement Learning dần dần đưa vào mô hình những trường hợp khó hơn, mơ hồ hơn. Công trình này có ý nghĩa vì nó chứng minh rằng những điểm số ấn tượng trên các benchmark định vị hiện có có thể che giấu sự gần như bất lực hoàn toàn của một mô hình trong việc xử lý loại ngôn ngữ gián tiếp, hướng đến mục tiêu mà con người tự nhiên sử dụng khi mô tả những gì họ cần.
tóm tắt
Các benchmark định vị thị giác hiện có chủ yếu đánh giá sự khớp nối giữa các vùng ảnh và các biểu thức tham chiếu theo nghĩa đen, nơi các mô hình thường có thể thành công bằng cách khớp với một danh mục được nêu tên nổi bật. Chúng tôi khám phá một bối cảnh bổ sung và thách thức hơn của định vị thị giác dựa trên kịch bản, nơi mục tiêu phải được suy ra từ vai trò, ý định và ngữ cảnh quan hệ thay vì việc nêu tên rõ ràng. Chúng tôi giới thiệu Referring Scenario Comprehension (RSC), một benchmark được thiết kế cho bối cảnh này. Các truy vấn trong benchmark này là những đoạn văn bản dài cỡ một đoạn văn mô tả vai trò của đối tượng, mục tiêu của người dùng và các gợi ý ngữ cảnh, bao gồm cả những tham chiếu cố ý đến các đối tượng gây nhiễu thường đòi hỏi sự hiểu biết sâu sắc để giải quyết. Mỗi mẫu được chú thích bằng các nhãn độ khó có thể diễn giải về tính duy nhất, sự lộn xộn, kích thước, sự chồng lấp và vị trí, nhằm phơi bày các kiểu lỗi khác nhau và hỗ trợ phân tích chi tiết. RSC chứa khoảng 31k mẫu huấn luyện, 4k mẫu kiểm tra trong miền, và một phần tách 3k ngoài phân phối với các danh mục đối tượng chưa từng thấy. Chúng tôi còn đề xuất ScenGround, một phương pháp suy luận theo lối curriculum đóng vai trò là điểm tham chiếu cho bối cảnh này, kết hợp khởi động ấm có giám sát với Reinforcement Learning có nhận biết độ khó. Các thí nghiệm cho thấy các truy vấn dựa trên kịch bản phơi bày những thất bại có hệ thống ở các mô hình hiện tại mà các benchmark tiêu chuẩn không bộc lộ, và rằng huấn luyện theo lối curriculum cải thiện hiệu năng trên các lát cắt thách thức và chuyển giao sang các benchmark tiêu chuẩn.
chi tiết
trích dẫn
@article{hebeyond,
title = {Beyond Referring Expressions: Scenario Comprehension Visual Grounding},
author = {He, Ruozhen and Shah, Nisarg A. and Dong, Qihua and Xiao, Zilin and Koo, Jaywon and Ordonez, Vicente},
journal = {arxiv:2604.02323},
url = {https://arxiv.org/abs/2604.02323},
}
câu hỏi, đóng góp chính và hạn chế của bài báo này được tạo tự động
Câu hỏi mà bài báo này giúp trả lời
- RSC là gì và nó khác với các benchmark như RefCOCO ra sao? RSC thay thế các cụm từ tham chiếu ngắn theo nghĩa đen bằng các truy vấn kịch bản dài cỡ một đoạn văn mô tả vai trò, mục tiêu của người dùng và ít nhất ba gợi ý làm rõ nghĩa, đồng thời cố ý nêu tên các đối tượng gây nhiễu; các mô hình phải dự đoán cả danh mục mục tiêu và một bounding box mà không được cho biết tên danh mục trong truy vấn.
- Các mô hình tiên tiến nhất hiện nay hoạt động ra sao trên RSC? Các mô hình mã nguồn đóng như GPT-4o và Claude 3.7 đạt độ chính xác danh mục cao nhưng độ chính xác định vị rất thấp trên RSC, với GPT-4o chỉ đạt 13,23 phần trăm Acc@0.5 trên phần tách trong miền, trong khi phương pháp ScenGround được đề xuất đạt 60,90 phần trăm Acc@0.5 trên cùng phần tách đó.
- ScenGround là gì và nó hoạt động như thế nào? ScenGround là một phương pháp huấn luyện theo lối curriculum hai giai đoạn được xây dựng trên Qwen2.5-VL-7B: Giai đoạn 1 là bước tinh chỉnh có giám sát trên các lát cắt RSC dễ hơn để căn chỉnh mô hình theo sơ đồ suy luận, và Giai đoạn 2 áp dụng Reinforcement Learning GRPO có nhận biết độ khó với phần thưởng IoU được định hình và phần thưởng danh mục có nhận biết tên gọi thay thế, dần dần lấy mẫu các trường hợp khó hơn.
- Việc huấn luyện trên RSC có chuyển giao sang các benchmark biểu thức tham chiếu tiêu chuẩn không? Có, giai đoạn GRPO của ScenGround cải thiện Acc@0.5 trên tập kiểm định RefCOCO+ từ 52,54 lên 70,16 phần trăm và trên tập kiểm định RefCOCOg từ 52,46 lên 78,19 phần trăm khi sử dụng cùng một prompt tùy chỉnh, cho thấy lối curriculum phát triển các kỹ năng làm rõ nghĩa có thể chuyển giao.
- Phần tách ngoài phân phối kiểm tra điều gì và các kết quả cho thấy gì? Phần tách OOD sử dụng các danh mục LVIS không trùng lặp với các danh mục huấn luyện COCO, kiểm tra khả năng tổng quát hóa xuyên danh mục; ScenGround đạt 38,11 phần trăm Acc@0.5 trên OOD so với 15,88 phần trăm của mô hình Qwen2.5-VL cơ sở, nhưng độ chính xác đặt tên danh mục OOD vẫn gần với mức cơ sở, cho thấy việc định vị không gian tổng quát hóa tốt hơn so với việc đặt tên ngữ nghĩa dưới sự dịch chuyển danh mục.
Đóng góp chính
- RSC giới thiệu các truy vấn định vị thị giác dựa trên kịch bản có độ dài trung bình 52,7 từ, dài hơn sáu lần so với các truy vấn RefCOCO, với các nhãn độ khó theo từng mẫu trên năm trục, các chú thích vết suy luận theo từng mẫu, và một phần tách kiểm tra ngoài phân phối hoàn toàn tách biệt được lấy từ LVIS.
- Benchmark phơi bày một kiểu thất bại có hệ thống ở các mô hình thị giác-ngôn ngữ hiện tại: các mô hình có khả năng hiểu danh mục mạnh có xu hướng định vị kém, còn các mô hình có khả năng phát hiện mạnh lại thiếu khả năng suy luận ngữ nghĩa cần thiết cho các truy vấn dựa trên kịch bản.
- ScenGround chứng minh rằng một lối curriculum có nhận biết nhãn kết hợp khởi động ấm có giám sát với Reinforcement Learning tăng dần độ khó cải thiện đáng kể việc định vị cả trong miền lẫn ngoài phân phối, nâng mIoU từ 30,31 lên 55,68 trên RSC-ID cho mô hình cơ sở.
- Việc kiểm định bởi con người trên 300 mẫu qua ba người chú thích đạt 95,7 phần trăm độ chính xác bỏ phiếu đa số với hệ số Fleiss kappa 0,94, củng cố độ tin cậy của các chú thích benchmark.
- Bài báo cung cấp một phân tích loại bỏ có kiểm soát cho thấy thứ tự curriculum có ý nghĩa quan trọng: trộn lẫn các mẫu dễ và khó trong một giai đoạn GRPO duy nhất cho hiệu năng thấp hơn so với lối curriculum hai giai đoạn từ dễ đến khó, nhất quán với cách giải thích về sự thưa thớt phần thưởng mà các tác giả đưa ra.
Hạn chế và lưu ý
- Độ chính xác đặt tên danh mục ngoài phân phối của ScenGround vẫn gần với mức cơ sở chưa được tinh chỉnh, điều này tách biệt một cách hữu ích việc đặt tên ngữ nghĩa khỏi việc định vị không gian; những cải thiện mạnh về định vị cho thấy lối curriculum đã và đang cải thiện một phần quan trọng của bài toán hiểu kịch bản khó hơn.
- RSC sử dụng GPT-4o để tạo ra các kịch bản và Gemini-2.5-Pro làm bộ đánh giá chất lượng, với một cuộc kiểm định bởi con người xác thực một tập con được lấy mẫu; việc xem xét bởi con người rộng hơn có thể củng cố thêm benchmark, nhưng độ chính xác bỏ phiếu đa số 95,7 phần trăm và mức đồng thuận cao được báo cáo cung cấp bằng chứng đáng tin cậy rằng các chú thích là đáng tin cậy.
- RSC hiện tập trung vào việc định vị tĩnh, đơn-đối-tượng, ngoại tâm (exocentric), điều này làm cho benchmark chính xác và có thể phân tích được; việc định vị đa-đối-tượng, theo thời gian và tương tác là những phần mở rộng tự nhiên dựa trên cùng ý tưởng hiểu kịch bản.
- Phép so sánh với Grounding DINO sử dụng đầu vào danh mục oracle, vì vậy nó nên được hiểu là một tham chiếu cận trên mang tính thông tin chứ không phải một phép so sánh triển khai trực tiếp; điều này vẫn giúp làm rõ phần lớn thách thức đến từ việc hiểu kịch bản so với việc định vị đối tượng.
- Benchmark được xây dựng từ các ảnh tự nhiên MS-COCO và LVIS, để dành các miền khác như ảnh y tế, GUI và ảnh vệ tinh cho nghiên cứu tương lai; trong miền đã chọn của nó, các phần tách trong miền và ngoài phân phối đã bộc lộ một khoảng cách đánh giá có ý nghĩa.
Cách diễn giải kết quả này
Bài báo này nên được hiểu như một đóng góp mạnh mẽ và kịp thời cho lĩnh vực định vị thị giác: nó định nghĩa một thách thức hiểu kịch bản thực tế, hậu thuẫn bằng một benchmark được xác thực cẩn thận và các thí nghiệm có kiểm soát, và cho thấy rằng suy luận theo lối curriculum có thể cải thiện đáng kể việc định vị ngay cả khi vẫn để lại nhiều cơ hội phong phú cho công trình tổng quát hóa trong tương lai.