SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

article pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'université Rice, de l'UC Irvine, de Georgia Tech, de Johns Hopkins et de l'UC Santa Barbara ont publié SportR, un banc d'essai à grande échelle conçu pour tester la capacité des systèmes d'IA à raisonner sur les règles et les tactiques sportives, et pas seulement à identifier le sport pratiqué. Le banc d'essai comble une lacune laissée par les jeux de données existants, qui couvrent soit un seul sport, s'appuient trop fortement sur des questions à choix multiples, ou manquent des annotations de raisonnement à grain fin nécessaires pour entraîner les modèles à raisonner étape par étape. SportR comprend 4 789 images et 2 052 séquences vidéo couvrant le basketball, le football, le tennis de table, le badminton et le football américain, recensant 50 types de fautes et 12 catégories tactiques. Sa caractéristique la plus distinctive est un ensemble de 6 841 explications de chaîne de pensée (Chain-of-Thought) entièrement rédigées par des humains, produites par une équipe de 16 experts du domaine, dont d'anciens athlètes de Division I, qui déroulent la logique derrière les décisions arbitrales à la manière d'un arbitre expérimenté. Le banc d'essai demande aux modèles d'accomplir des tâches de difficulté croissante : repérer si une faute a eu lieu, la classifier, prédire la sanction, expliquer le raisonnement et, de manière inédite, produire les coordonnées exactes de la boîte englobant l'infraction dans une image fixe. Lorsque l'équipe a testé des modèles d'IA de premier plan, notamment GPT-5, Claude 4 et Gemini 2.5 Pro, les performances sur les tâches les plus difficiles étaient systématiquement faibles, avec des scores d'ancrage visuel inférieurs à 7 % d'IoU pour toutes les références. L'affinage d'un modèle open source sur les données de SportR a amélioré ces scores, mais même après un fine-tuning supervisé et un apprentissage par renforcement, la métrique d'ancrage n'a atteint qu'environ 10 %, un résultat qui, selon les auteurs, souligne à quel point les modèles actuels restent loin de relier de manière fiable les preuves visuelles à la connaissance abstraite du sport.

résumé

Comprendre le sport en profondeur exige un mélange complexe de perception visuelle à grain fin et de raisonnement fondé sur des règles, un défi qui repousse les limites des modèles multimodaux actuels. Pour réussir, les modèles doivent maîtriser trois capacités essentielles : percevoir des détails visuels nuancés, appliquer une connaissance abstraite des règles sportives, et ancrer cette connaissance dans des preuves visuelles spécifiques. Les bancs d'essai sportifs actuels couvrent soit un seul sport, soit manquent des chaînes de raisonnement détaillées et de l'ancrage visuel précis nécessaires pour évaluer de manière robuste ces capacités fondamentales dans un contexte multi-sports. Pour combler cette lacune, nous présentons SportR, le premier banc d'essai multi-sports à grande échelle conçu pour entraîner et évaluer les MLLM sur le raisonnement fondamental requis pour l'intelligence sportive. Notre banc d'essai fournit un jeu de données de 4 789 images et 2 052 vidéos. Pour permettre une évaluation granulaire, nous structurons notre banc d'essai autour d'une hiérarchie progressive de paires question-réponse conçues pour sonder le raisonnement à des profondeurs croissantes, de la simple identification d'infraction à la prédiction complexe de sanction. Pour les tâches les plus avancées nécessitant un raisonnement en plusieurs étapes, telles que la détermination de sanctions ou l'explication de tactiques, nous fournissons 6 841 annotations de chaîne de pensée (Chain of Thought) de haute qualité rédigées par des humains. De plus, notre banc d'essai intègre à la fois les modalités image et vidéo et fournit des annotations manuelles de boîtes englobantes pour tester directement l'ancrage visuel dans la partie image. Des expériences approfondies démontrent la profonde difficulté de notre banc d'essai. Les modèles de référence de pointe obtiennent de mauvaises performances sur nos tâches les plus exigeantes. Bien que l'entraînement sur nos données via le fine-tuning supervisé et l'apprentissage par renforcement améliore ces scores, ils restent relativement faibles, soulignant un écart significatif dans les capacités actuelles des modèles. SportR présente un nouveau défi pour la communauté, fournissant une ressource essentielle pour stimuler les recherches futures sur le raisonnement sportif multimodal.

citation

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}