SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

artigo pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University, da UC Irvine, da Georgia Tech, da Johns Hopkins e da UC Santa Barbara lançaram o SportR, um benchmark de larga escala projetado para testar quão bem os sistemas de IA conseguem raciocinar sobre as regras e táticas esportivas — e não apenas identificar qual esporte está sendo praticado. O benchmark aborda uma lacuna deixada pelos conjuntos de dados existentes, que ou cobrem apenas um único esporte, dependem excessivamente de questões de múltipla escolha ou carecem das anotações de raciocínio de granularidade fina necessárias para treinar modelos a pensar passo a passo. O SportR inclui 4.789 imagens e 2.052 clipes de vídeo abrangendo basquete, futebol, tênis de mesa, badminton e futebol americano, cobrindo 50 tipos de faltas e 12 categorias táticas. Sua característica mais distintiva é um conjunto de 6.841 explicações de Chain-of-Thought inteiramente escritas por humanos — produzidas por uma equipe de 16 especialistas no domínio, incluindo ex-atletas da Divisão I — que percorrem a lógica por trás das marcações de regras no estilo de um árbitro experiente. O benchmark pede que os modelos façam coisas progressivamente mais difíceis: identificar se ocorreu uma falta, classificá-la, prever a penalidade, explicar o raciocínio e, de forma singular, gerar as coordenadas exatas da bounding box da infração em uma imagem estática. Quando a equipe testou os principais modelos de IA, incluindo GPT-5, Claude 4 e Gemini 2.5 Pro, o desempenho nas tarefas mais difíceis foi consistentemente fraco, com pontuações de ancoragem visual abaixo de 7% de IoU em todas as baselines. O ajuste fino de um modelo de código aberto nos dados do SportR melhorou essas pontuações, mas, mesmo após o ajuste fino supervisionado e o aprendizado por reforço, a métrica de ancoragem alcançou apenas cerca de 10% — um resultado que, segundo os autores, ressalta o quão distantes os modelos atuais ainda estão de conectar de forma confiável evidências visuais a conhecimento esportivo abstrato.

resumo

Compreender esportes em profundidade exige uma intrincada combinação de percepção visual de granularidade fina e raciocínio baseado em regras — um desafio que leva os modelos multimodais atuais ao limite. Para ter sucesso, os modelos devem dominar três capacidades críticas: perceber detalhes visuais sutis, aplicar conhecimento abstrato das regras esportivas e ancorar esse conhecimento em evidências visuais específicas. Os benchmarks esportivos atuais ou cobrem um único esporte ou carecem das cadeias detalhadas de raciocínio e da ancoragem visual precisa necessárias para avaliar de forma robusta essas capacidades centrais em um contexto multiesportivo. Para preencher essa lacuna, apresentamos o SportR, o primeiro benchmark multiesportivo de larga escala projetado para treinar e avaliar MLLMs no raciocínio fundamental exigido pela inteligência esportiva. Nosso benchmark fornece um conjunto de dados com 4.789 imagens e 2.052 vídeos. Para possibilitar uma avaliação granular, estruturamos nosso benchmark em torno de uma hierarquia progressiva de pares pergunta-resposta projetada para sondar o raciocínio em profundidades crescentes — desde a identificação simples de infrações até a previsão complexa de penalidades. Para as tarefas mais avançadas que exigem raciocínio de múltiplas etapas, como determinar penalidades ou explicar táticas, fornecemos 6.841 anotações de Chain of Thought de alta qualidade, escritas por humanos. Além disso, nosso benchmark incorpora as modalidades de imagem e vídeo e fornece anotações manuais de bounding boxes para testar diretamente a ancoragem visual na parte de imagem. Experimentos extensos demonstram a profunda dificuldade do nosso benchmark. Modelos de baseline de ponta têm desempenho fraco em nossas tarefas mais desafiadoras. Embora o treinamento com nossos dados via Ajuste Fino Supervisionado e Aprendizado por Reforço melhore essas pontuações, elas permanecem relativamente baixas, evidenciando uma lacuna significativa nas capacidades dos modelos atuais. O SportR apresenta um novo desafio para a comunidade, fornecendo um recurso crítico para impulsionar pesquisas futuras em raciocínio esportivo multimodal.

citação

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}