SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

artículo pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice, UC Irvine, Georgia Tech, Johns Hopkins y UC Santa Barbara han publicado SportR, un benchmark a gran escala diseñado para evaluar qué tan bien los sistemas de IA pueden razonar sobre reglas y tácticas deportivas, no solo identificar qué deporte se está practicando. El benchmark aborda una brecha dejada por los conjuntos de datos existentes, que o bien cubren un solo deporte, dependen demasiado de preguntas de opción múltiple o carecen de las anotaciones de razonamiento de grano fino necesarias para entrenar a los modelos a pensar paso a paso. SportR incluye 4.789 imágenes y 2.052 clips de video que abarcan baloncesto, fútbol, tenis de mesa, bádminton y fútbol americano, cubriendo 50 tipos de faltas y 12 categorías tácticas. Su característica más distintiva es un conjunto de 6.841 explicaciones de Chain-of-Thought escritas íntegramente por humanos — producidas por un equipo de 16 expertos del dominio, incluyendo exatletas de la División I — que recorren la lógica detrás de las decisiones arbitrales al estilo de un árbitro experimentado. El benchmark pide a los modelos que hagan cosas progresivamente más difíciles: detectar si ocurrió una falta, clasificarla, predecir la sanción, explicar el razonamiento y, de forma única, generar las coordenadas exactas del cuadro delimitador de la infracción en una imagen estática. Cuando el equipo evaluó modelos de IA líderes como GPT-5, Claude 4 y Gemini 2.5 Pro, el rendimiento en las tareas más difíciles fue consistentemente pobre, con puntuaciones de anclaje visual por debajo del 7% de IoU en todas las líneas base. El ajuste fino de un modelo de código abierto con datos de SportR mejoró esas puntuaciones, pero incluso después del ajuste fino supervisado y el aprendizaje por refuerzo la métrica de anclaje alcanzó solo alrededor del 10%, un resultado que, según los autores, subraya lo lejos que siguen estando los modelos actuales de conectar de forma fiable la evidencia visual con el conocimiento deportivo abstracto.

resumen

Comprender profundamente los deportes requiere una intrincada combinación de percepción visual de grano fino y razonamiento basado en reglas, un desafío que lleva al límite a los modelos multimodales actuales. Para tener éxito, los modelos deben dominar tres capacidades críticas: percibir detalles visuales sutiles, aplicar conocimiento abstracto de las reglas deportivas y anclar ese conocimiento en evidencia visual específica. Los benchmarks deportivos actuales o bien cubren un solo deporte o bien carecen de las cadenas de razonamiento detalladas y del anclaje visual preciso necesarios para evaluar de forma robusta estas capacidades fundamentales en un contexto multideporte. Para abordar esta brecha, presentamos SportR, el primer benchmark multideporte a gran escala diseñado para entrenar y evaluar MLLMs en el razonamiento fundamental requerido para la inteligencia deportiva. Nuestro benchmark proporciona un conjunto de datos de 4.789 imágenes y 2.052 videos. Para permitir una evaluación granular, estructuramos nuestro benchmark en torno a una jerarquía progresiva de pares de pregunta-respuesta diseñados para sondear el razonamiento a profundidades crecientes, desde la simple identificación de infracciones hasta la compleja predicción de sanciones. Para las tareas más avanzadas que requieren razonamiento de varios pasos, como determinar sanciones o explicar tácticas, proporcionamos 6.841 anotaciones de Chain of Thought de alta calidad, redactadas por humanos. Además, nuestro benchmark incorpora modalidades tanto de imagen como de video y proporciona anotaciones manuales de cuadros delimitadores para evaluar directamente el anclaje visual en la parte de imágenes. Experimentos exhaustivos demuestran la profunda dificultad de nuestro benchmark. Los modelos de referencia del estado del arte se desempeñan pobremente en nuestras tareas más desafiantes. Si bien el entrenamiento con nuestros datos mediante Supervised Fine-Tuning y Reinforcement Learning mejora estas puntuaciones, estas se mantienen relativamente bajas, lo que resalta una brecha significativa en las capacidades de los modelos actuales. SportR presenta un nuevo desafío para la comunidad, proporcionando un recurso crítico para impulsar la investigación futura en razonamiento deportivo multimodal.

cita

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}