SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

論文 pdf 生の bibtex

研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表（記者）スタイルの文体で書かれています。

Rice大学、UC Irvine、Georgia Tech、Johns Hopkins、UC Santa Barbaraの研究者らは、AIシステムが単にどのスポーツがプレーされているかを特定するだけでなく、スポーツのルールや戦術についてどの程度推論できるかをテストするために設計された大規模ベンチマークSportRを公開しました。本ベンチマークは、単一のスポーツしかカバーしていない、多肢選択式の質問に依存しすぎている、あるいはモデルが段階的に思考するよう学習させるのに必要な細粒度の推論アノテーションを欠いている、という既存データセットが残したギャップに対処します。SportRには、バスケットボール、サッカー、卓球、バドミントン、アメリカンフットボールにわたる4,789枚の画像と2,052本の動画クリップが含まれ、50種類のファウルタイプと12の戦術カテゴリをカバーしています。その最も特徴的な点は、元Division Iの選手を含む16名のドメイン専門家チームによって作成された、6,841件の完全に人間が書いたChain-of-Thoughtの説明のセットであり、これらは経験豊富な審判のスタイルでルール判定の背後にあるロジックを順を追って説明します。本ベンチマークはモデルに対し、ファウルが発生したかどうかを見抜く、それを分類する、ペナルティを予測する、推論を説明する、そして独自の点として、静止画像における反則の正確なバウンディングボックス座標を出力する、という段階的により難しいことを要求します。チームがGPT-5、Claude 4、Gemini 2.5 Proを含む主要なAIモデルをテストしたところ、最も難しいタスクでの性能は一貫して低く、視覚的グラウンディングのスコアはすべてのベースラインで7% IoU未満でした。SportRのデータでオープンソースモデルをファインチューニングするとこれらのスコアは向上しましたが、教師ありファインチューニングと強化学習を経た後でさえグラウンディングの指標は約10%にしか達せず、著者らはこの結果が、現在のモデルが視覚的証拠を抽象的なスポーツ知識に確実に結びつけることからいかに遠いかを浮き彫りにしていると述べています。

要旨

スポーツを深く理解するには、細粒度の視覚認識とルールに基づく推論の複雑な融合が必要であり、これは現在のマルチモーダルモデルの限界を押し広げる課題です。成功するためには、モデルは3つの重要な能力を習得しなければなりません。すなわち、微妙な視覚的詳細を認識すること、抽象的なスポーツルールの知識を適用すること、そしてその知識を特定の視覚的証拠に基づかせることです。現在のスポーツベンチマークは、単一のスポーツしかカバーしていないか、あるいはマルチスポーツの文脈でこれらの中核的能力を堅牢に評価するために必要な詳細な推論連鎖と正確な視覚的グラウンディングを欠いています。このギャップに対処するため、私たちはSportRを導入します。これは、スポーツインテリジェンスに必要な基本的推論についてMLLMを学習・評価するために設計された、初の大規模マルチスポーツベンチマークです。本ベンチマークは、4,789枚の画像と2,052本の動画からなるデータセットを提供します。細粒度の評価を可能にするため、私たちは単純な反則の特定から複雑なペナルティの予測まで、深さを増しながら推論を調べるように設計された質問応答ペアの段階的階層を中心に本ベンチマークを構成しています。ペナルティの判定や戦術の説明など、多段階の推論を必要とする最も高度なタスクのために、私たちは6,841件の高品質な人間作成のChain of Thoughtアノテーションを提供します。さらに、本ベンチマークは画像と動画の両方のモダリティを取り入れ、画像部分の視覚的グラウンディングを直接テストするための手動バウンディングボックスアノテーションを提供します。広範な実験は、本ベンチマークの極めて高い難易度を実証しています。最先端のベースラインモデルは、最も困難なタスクで性能が低くなります。教師ありファインチューニングと強化学習を介して本データで学習するとこれらのスコアは向上しますが、依然として比較的低いままであり、現在のモデルの能力における重大なギャップを浮き彫りにしています。SportRはコミュニティに新たな課題を提示し、マルチモーダルスポーツ推論における今後の研究を推進するための重要なリソースを提供します。

引用

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}