SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia; Haonan Ge; Junbo Zou; Hyun Woo Choi; Xuebin Zhang; Danny Suradja; Botao Rui; Ethan Tran; Wendy Jin; Zhen Ye; Xiyang Lin; Christopher Lai; Shengjie Zhang; Junwen Miao; Shichao Chen; Rhys Tracy; Vicente Ordonez; Weining Shen; Hanjie Chen

publication

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen.

International Conference on Learning Representations. ICLR 2026.

Artikel pdf BibTeX-Quelltext

Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forschende der Rice University, der UC Irvine, von Georgia Tech, Johns Hopkins und der UC Santa Barbara haben SportR veröffentlicht, einen großmaßstäblichen Benchmark, der testen soll, wie gut KI-Systeme über Sportregeln und Taktiken schlussfolgern können – und nicht nur erkennen, welche Sportart gerade gespielt wird. Der Benchmark schließt eine Lücke, die bestehende Datensätze hinterlassen, die entweder nur eine einzige Sportart abdecken, sich zu stark auf Multiple-Choice-Fragen stützen oder denen die feingranularen Argumentationsannotationen fehlen, die nötig sind, um Modelle darauf zu trainieren, Schritt für Schritt zu denken. SportR umfasst 4.789 Bilder und 2.052 Videoclips aus Basketball, Fußball, Tischtennis, Badminton und American Football und deckt 50 Foultypen sowie 12 taktische Kategorien ab. Sein markantestes Merkmal ist eine Sammlung von 6.841 vollständig von Menschen verfassten Chain-of-Thought-Erklärungen – erstellt von einem Team aus 16 Fachleuten, darunter ehemalige Division-I-Athleten –, die die Logik hinter Regelentscheidungen im Stil eines erfahrenen Schiedsrichters durchgehen. Der Benchmark verlangt von Modellen, schrittweise schwierigere Dinge zu leisten: zu erkennen, ob ein Foul aufgetreten ist, es zu klassifizieren, die Strafe vorherzusagen, die Begründung zu erklären und – einzigartig – die exakten Bounding-Box-Koordinaten des Regelverstoßes in einem statischen Bild auszugeben. Als das Team führende KI-Modelle einschließlich GPT-5, Claude 4 und Gemini 2.5 Pro testete, war die Leistung bei den schwierigsten Aufgaben durchweg schlecht, mit visuellen Grounding-Werten unter 7 % IoU über alle Baselines hinweg. Das Fine-Tuning eines Open-Source-Modells auf SportR-Daten verbesserte diese Werte, doch selbst nach Supervised Fine-Tuning und Reinforcement Learning erreichte die Grounding-Metrik nur etwa 10 % – ein Ergebnis, das nach Aussage der Autoren unterstreicht, wie weit aktuelle Modelle noch davon entfernt sind, visuelle Belege zuverlässig mit abstraktem Sportwissen zu verknüpfen.

Zusammenfassung

Sport tiefgehend zu verstehen, erfordert eine komplexe Mischung aus feingranularer visueller Wahrnehmung und regelbasiertem Schlussfolgern – eine Herausforderung, die die Grenzen aktueller multimodaler Modelle ausreizt. Um erfolgreich zu sein, müssen Modelle drei kritische Fähigkeiten beherrschen: nuancierte visuelle Details wahrzunehmen, abstraktes Wissen über Sportregeln anzuwenden und dieses Wissen in konkreten visuellen Belegen zu verankern. Aktuelle Sport-Benchmarks decken entweder einzelne Sportarten ab oder es fehlen ihnen die detaillierten Argumentationsketten und das präzise visuelle Grounding, die nötig sind, um diese Kernfähigkeiten in einem Mehrsport-Kontext robust zu evaluieren. Um diese Lücke zu schließen, führen wir SportR ein, den ersten großmaßstäblichen Mehrsport-Benchmark, der darauf ausgelegt ist, MLLMs auf dem grundlegenden Schlussfolgern zu trainieren und zu evaluieren, das für Sportintelligenz erforderlich ist. Unser Benchmark stellt einen Datensatz von 4.789 Bildern und 2.052 Videos bereit. Um eine granulare Evaluation zu ermöglichen, strukturieren wir unseren Benchmark um eine progressive Hierarchie von Frage-Antwort-Paaren, die darauf ausgelegt ist, das Schlussfolgern in zunehmender Tiefe zu prüfen – von der einfachen Identifikation von Regelverstößen bis zur komplexen Vorhersage von Strafen. Für die anspruchsvollsten Aufgaben, die mehrstufiges Schlussfolgern erfordern, etwa die Bestimmung von Strafen oder die Erklärung von Taktiken, stellen wir 6.841 hochwertige, von Menschen verfasste Chain-of-Thought-Annotationen bereit. Darüber hinaus integriert unser Benchmark sowohl Bild- als auch Videomodalitäten und stellt manuelle Bounding-Box-Annotationen bereit, um das visuelle Grounding im Bildteil direkt zu testen. Umfangreiche Experimente demonstrieren die tiefgreifende Schwierigkeit unseres Benchmarks. State-of-the-Art-Baseline-Modelle schneiden bei unseren anspruchsvollsten Aufgaben schlecht ab. Während das Training auf unseren Daten mittels Supervised Fine-Tuning und Reinforcement Learning diese Werte verbessert, bleiben sie relativ niedrig, was eine erhebliche Lücke in den Fähigkeiten aktueller Modelle aufzeigt. SportR stellt eine neue Herausforderung für die Community dar und bietet eine entscheidende Ressource, um künftige Forschung im multimodalen Sport-Reasoning voranzutreiben.

Zitation

@inproceedings{xia2026sportr,
  title = {SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports},
  author = {Xia, Haotian and Ge, Haonan and Zou, Junbo and Choi, Hyun Woo and Zhang, Xuebin and Suradja, Danny and Rui, Botao and Tran, Ethan and Jin, Wendy and Ye, Zhen and Lin, Xiyang and Lai, Christopher and Zhang, Shengjie and Miao, Junwen and Chen, Shichao and Tracy, Rhys and Ordonez, Vicente and Shen, Weining and Chen, Hanjie},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2511.06499},
}