SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

статья pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University, UC Irvine, Georgia Tech, Johns Hopkins и UC Santa Barbara выпустили SportR — масштабный бенчмарк, призванный проверить, насколько хорошо системы ИИ способны рассуждать о правилах и тактике спорта, а не просто определять, какой вид спорта показан. Бенчмарк устраняет пробел, оставленный существующими наборами данных, которые либо охватывают лишь один вид спорта, либо слишком сильно опираются на вопросы с вариантами ответа, либо лишены детальных аннотаций рассуждений, нужных для обучения моделей думать пошагово. SportR включает 4 789 изображений и 2 052 видеоклипа, охватывающих баскетбол, футбол, настольный теннис, бадминтон и американский футбол, и покрывает 50 типов фолов и 12 тактических категорий. Его самая отличительная черта — набор из 6 841 полностью написанного людьми объяснения Chain-of-Thought, подготовленного командой из 16 экспертов предметной области, включая бывших спортсменов Division I, — которые проходят через логику решений по правилам в стиле опытного судьи. Бенчмарк требует от моделей выполнения всё более трудных задач: определить, произошёл ли фол, классифицировать его, предсказать наказание, объяснить рассуждение и, что уникально, вывести точные координаты ограничивающей рамки (bounding box) нарушения на статичном изображении. Когда команда протестировала ведущие модели ИИ, включая GPT-5, Claude 4 и Gemini 2.5 Pro, производительность на самых трудных задачах была неизменно низкой, с показателями визуальной локализации ниже 7% IoU у всех базовых моделей. Дообучение модели с открытым исходным кодом на данных SportR улучшило эти показатели, но даже после supervised fine-tuning и Reinforcement Learning метрика локализации достигла лишь около 10% — результат, который, по словам авторов, подчёркивает, насколько далеки современные модели от надёжного связывания визуальных свидетельств с абстрактным знанием спорта.

аннотация

Глубокое понимание спорта требует сложного сочетания детального визуального восприятия и рассуждений на основе правил — задача, которая раздвигает пределы возможностей современных мультимодальных моделей. Чтобы преуспеть, модели должны овладеть тремя ключевыми способностями: восприятием тонких визуальных деталей, применением абстрактного знания правил спорта и привязкой этого знания к конкретным визуальным свидетельствам. Существующие спортивные бенчмарки либо охватывают один вид спорта, либо лишены подробных цепочек рассуждений и точной визуальной локализации, необходимых для надёжной оценки этих базовых способностей в контексте многих видов спорта. Чтобы устранить этот пробел, мы представляем SportR — первый масштабный мультиспортивный бенчмарк, предназначенный для обучения и оценки MLLM на фундаментальных рассуждениях, требуемых для спортивного интеллекта. Наш бенчмарк предоставляет набор данных из 4 789 изображений и 2 052 видео. Для детальной оценки мы структурируем наш бенчмарк вокруг прогрессивной иерархии пар вопрос-ответ, призванных проверять рассуждения на возрастающей глубине — от простого выявления нарушения до сложного предсказания наказания. Для самых продвинутых задач, требующих многошаговых рассуждений, таких как определение наказаний или объяснение тактики, мы предоставляем 6 841 высококачественную аннотацию Chain of Thought, написанную людьми. Кроме того, наш бенчмарк включает как изображения, так и видео и предоставляет ручные аннотации ограничивающих рамок (bounding box) для непосредственной проверки визуальной локализации в части с изображениями. Обширные эксперименты демонстрируют глубокую сложность нашего бенчмарка. Современные базовые модели плохо справляются с нашими самыми трудными задачами. Хотя обучение на наших данных с помощью Supervised Fine-Tuning и Reinforcement Learning повышает эти показатели, они остаются относительно низкими, что подчёркивает значительный разрыв в возможностях современных моделей. SportR ставит новый вызов перед сообществом, предоставляя критически важный ресурс для продвижения будущих исследований мультимодальных спортивных рассуждений.

цитирование

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}