SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

논문 pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교, UC Irvine, Georgia Tech, Johns Hopkins, UC Santa Barbara의 연구진은 AI 시스템이 어떤 스포츠를 하고 있는지 식별하는 것을 넘어 스포츠 규칙과 전술을 얼마나 잘 추론할 수 있는지를 테스트하도록 설계된 대규모 벤치마크 SportR를 공개했다. 이 벤치마크는 단일 스포츠만 다루거나, 객관식 문제에 지나치게 의존하거나, 모델이 단계별로 사고하도록 학습시키는 데 필요한 세밀한 추론 주석을 결여한 기존 데이터셋이 남긴 공백을 해결한다. SportR는 농구, 축구, 탁구, 배드민턴, 미식축구를 아우르는 4,789개의 이미지와 2,052개의 비디오 클립을 포함하며, 50가지 파울 유형과 12가지 전술 범주를 다룬다. 가장 두드러진 특징은 전직 1부 리그(Division I) 선수를 포함한 16명의 도메인 전문가 팀이 작성한 6,841개의 완전한 인간 작성 Chain-of-Thought 설명으로, 노련한 심판의 방식으로 규칙 판정의 배경 논리를 짚어준다. 이 벤치마크는 모델에게 점점 더 어려운 작업을 요구한다: 파울 발생 여부를 식별하고, 이를 분류하며, 페널티를 예측하고, 추론을 설명하며, 독특하게도 정지 이미지에서 반칙의 정확한 바운딩 박스 좌표를 출력하는 것이다. 연구팀이 GPT-5, Claude 4, Gemini 2.5 Pro를 포함한 선도적 AI 모델을 테스트했을 때, 가장 어려운 작업에서의 성능은 일관되게 저조했으며, 모든 기준 모델에서 시각적 그라운딩 점수는 7% IoU 미만이었다. 오픈소스 모델을 SportR 데이터로 미세조정하자 이러한 점수가 향상되었지만, 지도 미세조정과 강화 학습을 거친 후에도 그라운딩 지표는 약 10%에 그쳤다. 저자들은 이 결과가 현재 모델이 시각적 증거를 추상적인 스포츠 지식과 신뢰성 있게 연결하는 데 얼마나 멀리 떨어져 있는지를 강조한다고 말한다.

초록

스포츠를 깊이 이해하려면 세밀한 시각적 인식과 규칙 기반 추론의 정교한 결합이 필요하며, 이는 현재 멀티모달 모델의 한계를 시험하는 과제이다. 성공하려면 모델은 세 가지 핵심 능력을 갖추어야 한다: 미묘한 시각적 세부 사항을 인식하는 능력, 추상적인 스포츠 규칙 지식을 적용하는 능력, 그리고 그 지식을 특정 시각적 증거에 기반(grounding)하는 능력이다. 현재의 스포츠 벤치마크는 단일 스포츠만을 다루거나, 다중 스포츠 맥락에서 이러한 핵심 능력을 견고하게 평가하는 데 필요한 상세한 추론 사슬과 정밀한 시각적 그라운딩을 결여하고 있다. 이러한 공백을 해결하기 위해, 우리는 스포츠 지능에 필요한 근본적인 추론에 대해 MLLM을 학습하고 평가하도록 설계된 최초의 다중 스포츠 대규모 벤치마크인 SportR를 소개한다. 우리의 벤치마크는 4,789개의 이미지와 2,052개의 비디오 데이터셋을 제공한다. 세밀한 평가를 가능하게 하기 위해, 우리는 단순한 반칙 식별에서 복잡한 페널티 예측에 이르기까지 점점 깊어지는 수준에서 추론을 검증하도록 설계된 질의응답 쌍의 점진적 위계를 중심으로 벤치마크를 구성한다. 페널티 판정이나 전술 설명과 같이 다단계 추론이 필요한 가장 고급 작업을 위해, 우리는 6,841개의 고품질 인간 작성 Chain of Thought 주석을 제공한다. 또한 우리의 벤치마크는 이미지와 비디오 양식을 모두 통합하며, 이미지 부분에서 시각적 그라운딩을 직접 테스트하기 위한 수동 바운딩 박스 주석을 제공한다. 광범위한 실험은 우리 벤치마크의 심대한 난이도를 입증한다. 최첨단 기준 모델은 가장 까다로운 작업에서 저조한 성능을 보인다. 우리 데이터에 대한 지도 미세조정(Supervised Fine-Tuning)과 강화 학습(Reinforcement Learning)을 통한 학습은 이러한 점수를 향상시키지만, 여전히 상대적으로 낮게 유지되어 현재 모델 역량의 상당한 격차를 부각한다. SportR는 커뮤니티에 새로운 도전 과제를 제시하며, 멀티모달 스포츠 추론의 미래 연구를 추동할 핵심 자원을 제공한다.

인용

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}