SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports
新闻稿摘要
来自莱斯大学、UC Irvine、Georgia Tech、Johns Hopkins 和 UC Santa Barbara 的研究人员发布了 SportR,这是一个大规模基准,旨在测试 AI 系统对体育规则和战术进行推理的能力——而不仅仅是识别正在进行的是哪项运动。该基准弥补了现有数据集留下的空白:这些数据集要么只涵盖单一运动,要么过度依赖选择题,要么缺乏训练模型进行逐步思考所需的细粒度推理标注。SportR 包含 4,789 张图像和 2,052 段视频片段,涵盖篮球、足球、乒乓球、羽毛球和美式橄榄球,覆盖 50 种犯规类型和 12 类战术。其最显著的特点是一组 6,841 条完全由人工撰写的思维链(Chain-of-Thought)解释——由一支 16 人的领域专家团队(其中包括前 NCAA 一级联赛运动员)撰写——它们以经验丰富的裁判的方式,逐步阐述规则判罚背后的逻辑。该基准要求模型完成难度逐步提升的任务:判断是否发生犯规、对其分类、预测判罚、解释推理过程,以及独特地,输出静态图像中犯规行为的精确边界框坐标。当研究团队测试包括 GPT-5、Claude 4 和 Gemini 2.5 Pro 在内的领先 AI 模型时,它们在最难任务上的表现一直很差,所有基线的视觉定位得分均低于 7% IoU。在 SportR 数据上微调一个开源模型提升了这些分数,但即便经过监督微调和强化学习,定位指标也仅达到约 10%——作者表示,这一结果凸显了当前模型在可靠地将视觉证据与抽象体育知识联系起来方面仍有多远的距离。
摘要
深入理解体育运动需要将细粒度的视觉感知与基于规则的推理巧妙地融合在一起——这一挑战将当前多模态模型的能力推向了极限。要取得成功,模型必须掌握三项关键能力:感知细微的视觉细节、运用抽象的体育规则知识,以及将这些知识落地到具体的视觉证据上。当前的体育基准要么只涵盖单一运动,要么缺乏在多运动场景中稳健评估这些核心能力所需的详细推理链和精确视觉定位。为弥补这一空白,我们推出了 SportR,这是首个多运动大规模基准,旨在训练和评估 MLLM 在体育智能所需的基础推理能力。我们的基准提供了一个包含 4,789 张图像和 2,052 段视频的数据集。为实现细粒度评估,我们将基准组织为一个层层递进的问答对层级,旨在以不断加深的层次探究推理能力——从简单的犯规识别到复杂的判罚预测。对于需要多步推理的最高级任务,例如判定判罚或解释战术,我们提供了 6,841 条高质量、人工撰写的思维链(Chain of Thought)标注。此外,我们的基准同时包含图像和视频两种模态,并在图像部分提供人工标注的边界框,以直接测试视觉定位能力。大量实验表明了我们基准的极高难度。最先进的基线模型在我们最具挑战性的任务上表现不佳。虽然通过监督微调(Supervised Fine-Tuning)和强化学习(Reinforcement Learning)在我们的数据上进行训练能够提升这些分数,但它们仍然相对较低,凸显了当前模型能力的显著差距。SportR 为社区提出了一项新的挑战,提供了一项关键资源,以推动多模态体育推理领域未来的研究。
引用
@inproceedings{xia2026sportr,
title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
year = {2026},
booktitle = {International Conference on Learning Representations. ICLR 2026},
url = {https://arxiv.org/abs/2511.06499},
}