SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

articolo pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Rice University, UC Irvine, Georgia Tech, Johns Hopkins e UC Santa Barbara hanno rilasciato SportR, un benchmark su larga scala progettato per testare quanto bene i sistemi di IA sappiano ragionare sulle regole e sulle tattiche sportive, non limitandosi a identificare lo sport in corso. Il benchmark affronta una lacuna lasciata dai dataset esistenti, che o coprono un solo sport, o si affidano eccessivamente a domande a scelta multipla, o mancano delle annotazioni di ragionamento a grana fine necessarie per addestrare i modelli a pensare passo dopo passo. SportR include 4.789 immagini e 2.052 clip video che spaziano tra pallacanestro, calcio, tennis da tavolo, badminton e football americano, coprendo 50 tipi di falli e 12 categorie tattiche. La sua caratteristica più distintiva è un insieme di 6.841 spiegazioni Chain-of-Thought interamente scritte da esseri umani — prodotte da un team di 16 esperti del settore, tra cui ex atleti di Division I — che ripercorrono la logica dietro le decisioni arbitrali nello stile di un arbitro esperto. Il benchmark chiede ai modelli di svolgere compiti progressivamente più difficili: individuare se si è verificato un fallo, classificarlo, prevedere la sanzione, spiegare il ragionamento e, in modo unico, restituire le coordinate esatte del bounding box dell'infrazione in un'immagine statica. Quando il team ha testato i principali modelli di IA, tra cui GPT-5, Claude 4 e Gemini 2.5 Pro, le prestazioni nei compiti più difficili sono state costantemente scarse, con punteggi di grounding visivo inferiori al 7% di IoU su tutti i baseline. Il fine-tuning di un modello open-source sui dati di SportR ha migliorato questi punteggi, ma anche dopo il supervised fine-tuning e il reinforcement learning la metrica di grounding ha raggiunto solo circa il 10%, un risultato che secondo gli autori sottolinea quanto i modelli attuali siano ancora lontani dal collegare in modo affidabile l'evidenza visiva alla conoscenza astratta dello sport.

abstract

Comprendere a fondo lo sport richiede una complessa combinazione di percezione visiva a grana fine e ragionamento basato su regole, una sfida che spinge ai limiti gli attuali modelli multimodali. Per avere successo, i modelli devono padroneggiare tre capacità critiche: percepire dettagli visivi sottili, applicare conoscenze astratte sulle regole sportive e ancorare tali conoscenze a evidenze visive specifiche. Gli attuali benchmark sportivi o coprono singoli sport o mancano delle catene di ragionamento dettagliate e del preciso grounding visivo necessari per valutare in modo robusto queste capacità fondamentali in un contesto multi-sport. Per colmare questa lacuna, presentiamo SportR, il primo benchmark multi-sport su larga scala progettato per addestrare e valutare gli MLLM sul ragionamento fondamentale richiesto per l'intelligenza sportiva. Il nostro benchmark fornisce un dataset di 4.789 immagini e 2.052 video. Per consentire una valutazione granulare, strutturiamo il nostro benchmark attorno a una gerarchia progressiva di coppie domanda-risposta progettate per sondare il ragionamento a profondità crescenti, dalla semplice identificazione di un'infrazione alla complessa previsione di una sanzione. Per i compiti più avanzati che richiedono un ragionamento a più passi, come determinare le sanzioni o spiegare le tattiche, forniamo 6.841 annotazioni Chain of Thought di alta qualità, redatte da esseri umani. Inoltre, il nostro benchmark incorpora sia la modalità immagine sia quella video e fornisce annotazioni manuali di bounding box per testare direttamente il grounding visivo nella parte relativa alle immagini. Esperimenti estesi dimostrano la profonda difficoltà del nostro benchmark. I modelli baseline allo stato dell'arte ottengono prestazioni scarse nei nostri compiti più impegnativi. Sebbene l'addestramento sui nostri dati tramite Supervised Fine-Tuning e Reinforcement Learning migliori questi punteggi, essi rimangono relativamente bassi, evidenziando un divario significativo nelle attuali capacità dei modelli. SportR presenta una nuova sfida per la comunità, fornendo una risorsa critica per guidare la ricerca futura nel ragionamento sportivo multimodale.

citazione

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}