SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

bài báo pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu từ Rice University, UC Irvine, Georgia Tech, Johns Hopkins, và UC Santa Barbara đã phát hành SportR, một benchmark quy mô lớn được thiết kế để kiểm thử mức độ AI có thể suy luận về luật và chiến thuật thể thao tốt đến đâu — không chỉ là nhận diện môn thể thao nào đang được chơi. Benchmark này giải quyết một khoảng trống mà các tập dữ liệu hiện có để lại, vốn hoặc chỉ bao quát một môn thể thao duy nhất, hoặc dựa quá nhiều vào câu hỏi trắc nghiệm, hoặc thiếu các chú thích suy luận chi tiết cần thiết để huấn luyện mô hình tư duy từng bước. SportR bao gồm 4.789 ảnh và 2.052 đoạn video bao quát bóng rổ, bóng đá, bóng bàn, cầu lông, và bóng bầu dục Mỹ, bao phủ 50 loại lỗi và 12 hạng mục chiến thuật. Đặc điểm nổi bật nhất của nó là một tập 6.841 lời giải thích Chain-of-Thought được viết hoàn toàn bởi con người — được tạo ra bởi một đội ngũ gồm 16 chuyên gia lĩnh vực, bao gồm các vận động viên Division I trước đây — đi qua từng bước logic đằng sau các quyết định về luật theo phong cách của một trọng tài giàu kinh nghiệm. Benchmark yêu cầu các mô hình thực hiện những việc khó dần: phát hiện liệu có lỗi xảy ra hay không, phân loại nó, dự đoán hình phạt, giải thích lập luận, và, một cách độc đáo, xuất ra tọa độ hộp giới hạn chính xác của vi phạm trong một ảnh tĩnh. Khi nhóm nghiên cứu kiểm thử các mô hình AI hàng đầu bao gồm GPT-5, Claude 4, và Gemini 2.5 Pro, hiệu năng trên các tác vụ khó nhất luôn kém, với điểm định vị thị giác dưới 7% IoU trên tất cả các baseline. Việc tinh chỉnh một mô hình mã nguồn mở trên dữ liệu SportR đã cải thiện những điểm số đó, nhưng ngay cả sau supervised fine-tuning và reinforcement learning, chỉ số định vị chỉ đạt khoảng 10% — một kết quả mà các tác giả cho rằng nhấn mạnh các mô hình hiện nay còn cách bao xa so với việc kết nối đáng tin cậy bằng chứng thị giác với kiến thức thể thao trừu tượng.

tóm tắt

Việc hiểu sâu về thể thao đòi hỏi một sự pha trộn tinh vi giữa nhận thức thị giác chi tiết và suy luận dựa trên luật - một thách thức đẩy giới hạn của các mô hình đa phương thức hiện nay. Để thành công, các mô hình phải làm chủ ba năng lực then chốt: cảm nhận những chi tiết thị giác tinh tế, áp dụng kiến thức luật thể thao trừu tượng, và định vị (grounding) kiến thức đó vào bằng chứng thị giác cụ thể. Các benchmark thể thao hiện nay hoặc chỉ bao quát một môn thể thao duy nhất hoặc thiếu các chuỗi suy luận chi tiết và định vị thị giác chính xác cần thiết để đánh giá vững chắc những năng lực cốt lõi này trong bối cảnh đa môn thể thao. Để giải quyết khoảng trống này, chúng tôi giới thiệu SportR, benchmark đa môn thể thao quy mô lớn đầu tiên được thiết kế để huấn luyện và đánh giá các MLLM về suy luận nền tảng cần thiết cho trí tuệ thể thao. Benchmark của chúng tôi cung cấp một tập dữ liệu gồm 4.789 ảnh và 2.052 video. Để cho phép đánh giá chi tiết, chúng tôi cấu trúc benchmark quanh một hệ phân cấp tiệm tiến của các cặp câu hỏi-câu trả lời được thiết kế để thăm dò suy luận ở các độ sâu tăng dần - từ việc nhận diện vi phạm đơn giản đến việc dự đoán hình phạt phức tạp. Đối với các tác vụ tiên tiến nhất đòi hỏi suy luận nhiều bước, chẳng hạn xác định hình phạt hay giải thích chiến thuật, chúng tôi cung cấp 6.841 chú thích Chain of Thought chất lượng cao do con người soạn thảo. Ngoài ra, benchmark của chúng tôi kết hợp cả hai phương thức ảnh và video và cung cấp các chú thích hộp giới hạn thủ công để kiểm thử trực tiếp định vị thị giác trong phần ảnh. Các thí nghiệm rộng rãi minh chứng độ khó sâu sắc của benchmark của chúng tôi. Các mô hình baseline tốt nhất hiện nay thể hiện kém trên những tác vụ thách thức nhất của chúng tôi. Trong khi huấn luyện trên dữ liệu của chúng tôi thông qua Supervised Fine-Tuning và Reinforcement Learning cải thiện những điểm số này, chúng vẫn ở mức tương đối thấp, làm nổi bật một khoảng cách đáng kể trong năng lực của các mô hình hiện nay. SportR đặt ra một thách thức mới cho cộng đồng, cung cấp một tài nguyên thiết yếu để thúc đẩy nghiên cứu tương lai về suy luận thể thao đa phương thức.

trích dẫn

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}