MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian; Kejia Ren; Yu Xiang; Vicente Ordonez; Kaiyu Hang

← zurück zu den Publikationen

preprint

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang

arXiv:2603.06846

Artikel pdf BibTeX-Quelltext

Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forschende an der Rice University und der University of Texas at Dallas haben ein neues Video-Segmentierungssystem entwickelt, das darauf ausgelegt ist, einzelne starre Objekte zu identifizieren und zu verfolgen, indem es analysiert, wie sie sich physisch bewegen, statt sich darauf zu verlassen, wie sie aussehen. Das Kernproblem, das sie angingen, besteht darin, dass bestehende Segmentierungsmodelle – einschließlich leistungsfähiger Foundation-Modelle wie Segment Anything – Szenen anhand des visuellen Erscheinungsbilds und von Menschen definierter Objektkategorien zerlegen, was dazu führt, dass sie entweder ein einzelnes zusammengesetztes Objekt in zu viele Teile zerlegen oder sich getrennt bewegende Teile zusammenfassen. Um dies zu lösen, definierte das Team ein neues Konzept namens „MotionBit“, das in der Kinematik starrer Körper verankert ist und Bildpixel nur dann gruppiert, wenn sie über einen Videoclip hinweg denselben räumlichen Twist teilen – im Wesentlichen dieselbe momentane rotatorische und translatorische Bewegung. Aufbauend auf dieser Definition erstellten sie einen lernfreien, graphbasierten Algorithmus, der die lokale Bewegung für gesampelte Bildpunkte mithilfe von optischem Fluss schätzt, einen nach kinematischer Konsistenz gewichteten Ähnlichkeitsgraphen konstruiert und dann Knoten in unterschiedliche Segmente starrer Körper clustert, wobei SAM 2 zur Bereinigung der Ränder verwendet wird. Zur Evaluation des Ansatzes stellte das Team außerdem MoRiBo zusammen, einen neuen handannotierten Benchmark aus 349 Videos, die teleoperierte Robotermanipulation und alltägliche Mensch-Objekt-Interaktionen umfassen. An diesem Benchmark getestet, übertraf ihre Methode State-of-the-Art-Video-Language-Modelle und Konkurrenten der Bewegungssegmentierung im Durchschnitt um 37,3 Prozentpunkte bei der mittleren Intersection-over-Union. In einer praktischen Roboterdemonstration ermöglichte das System einem Roboter, zusammengesetzte Blockobjekte in 6 von 10 Versuchen erfolgreich zu einem Turm zu stapeln, während konkurrierende Methoden auf Basis von SAM oder Sprachmodell-Schlussfolgern keinen einzigen Erfolg erzielten, was das Argument untermauert, dass bewegungsbewusste Segmentierung ein bedeutsames fehlendes Element für Roboter sein könnte, die in unaufgeräumten realen Umgebungen arbeiten.

Zusammenfassung

Starre Körper bilden die kleinsten manipulierbaren Elemente in der realen Welt, und zu verstehen, wie sie physisch interagieren, ist grundlegend für verkörpertes Schlussfolgern und robotische Manipulation. Daher ist die genaue Detektion, Segmentierung und Verfolgung sich bewegender starrer Körper unerlässlich, um Schlussfolgerungsmodulen zu ermöglichen, vielfältige Umgebungen zu interpretieren und in ihnen zu handeln. Aktuelle Segmentierungsmodelle, die auf semantischer Gruppierung trainiert sind, sind jedoch in ihrer Fähigkeit eingeschränkt, aussagekräftige Hinweise auf Interaktionsebene zur Erfüllung verkörperter Aufgaben zu liefern. Um diese Lücke zu schließen, führen wir MotionBit ein, ein neuartiges Konzept, das im Gegensatz zu früheren Formulierungen die kleinste Einheit in der bewegungsbasierten Segmentierung über kinematische räumliche Twist-Äquivalenz definiert, unabhängig von der Semantik. In dieser Arbeit liefern wir (1) das MotionBit-Konzept und seine Definition, (2) einen handannotierten Benchmark namens MoRiBo zur Evaluation der Segmentierung sich bewegender starrer Körper über robotische Manipulations- und In-the-Wild-Videos von Menschen hinweg sowie (3) eine lernfreie, graphbasierte MotionBits-Segmentierungsmethode, die State-of-the-Art-Methoden der verkörperten Wahrnehmung auf dem MoRiBo-Benchmark um 37,3 % beim makro-gemittelten mIoU übertrifft. Schließlich demonstrieren wir die Wirksamkeit der MotionBits-Segmentierung für nachgelagerte Aufgaben des verkörperten Schlussfolgerns und der Manipulation und heben ihre Bedeutung als grundlegendes Primitiv für das Verständnis physischer Interaktionen hervor.

Details

Anmerkung: 23 pages, 18 figures

Zitation

@article{qianmotionbits,
  title = {MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies},
  author = {Qian, Howard H. and Ren, Kejia and Xiang, Yu and Ordonez, Vicente and Hang, Kaiyu},
  journal = {arXiv preprint arXiv:2603.06846},
  url = {https://arxiv.org/abs/2603.06846},
}

automatisch generierte Fragen, wichtigste Beiträge und Grenzen dieses Artikels

Fragen, die dieser Artikel beantworten hilft

Was ist ein MotionBit und wie wird er definiert? Ein MotionBit ist die kleinste Einheit in der bewegungsbasierten Segmentierung, formal definiert über kinematische räumliche Twist-Äquivalenz: Pixel oder Punkte gehören genau dann zum selben MotionBit, wenn sie über ein Beobachtungszeitfenster hinweg eine identische, von null verschiedene räumliche Twist-Trajektorie teilen, unabhängig von ihrem visuellen Erscheinungsbild oder ihrer semantischen Klasse.
Was ist MoRiBo und was enthält es? MoRiBo ist der erste handannotierte Benchmark zur Evaluation der Segmentierung sich bewegender starrer Körper in realen RGB-Videos; er enthält 270 Robotermanipulationsvideos aus BridgeData V2 und 79 In-the-Wild-Videos von Menschen aus SA-V, mit manuell verifizierten Segmentierungsmasken im letzten Frame für jedes starre Teil, das eine eigenständige Bewegung aufwies.
Wie funktioniert die vorgeschlagene Methode auf hoher Ebene? Die Methode ist lernfrei und graphbasiert: Sie sampelt ein gleichmäßiges Punktraster pro Frame, schätzt lokale räumliche Twists mithilfe von optischem Fluss und einem modifizierten RANSAC mit Kabsch-Schätzung, baut einen Ähnlichkeitsgraphen für räumliche Twists mit Kantengewichten auf Basis der Mahalanobis-Distanz auf, wendet dann eine weiche Label-Propagation gefolgt von einem harten Markov-Clustering an und nutzt schließlich SAM 2 zur Verfeinerung der Segmentränder.
Um wie viel übertrifft die vorgeschlagene Methode die Baselines auf MoRiBo? Die Methode übertrifft alle evaluierten Baselines im Durchschnitt um 37,3 Prozentpunkte beim makro-gemittelten mIoU über beide Benchmark-Tracks hinweg und übertrifft die beiden stärksten Baselines, Qwen2.5-VL und Segment Any Motion in Videos, um 32,1 Prozentpunkte beim mIoU.
Welche nachgelagerten Aufgaben profitieren von der MotionBits-Segmentierung? Es werden zwei nachgelagerte Aufgaben demonstriert: visuell verankertes Visual Question Answering, bei dem das Überlagern von MotionBits-Masken als Set-of-Mark-Prompts die Fähigkeit eines Vision-Language-Modells erheblich verbessert, zu erkennen, welche Objekte sich bewegt haben, sowie robotisches Turmstapeln, bei dem der Roboter mit MotionBits-Masken 6 von 10 erfolgreiche Stapelungen erreichte, verglichen mit null Erfolgen für SAM, SAMIV und QwenVL.

Wichtigste Beiträge

Die Arbeit führt das MotionBit-Konzept ein, ein mathematisch fundiertes, semantikunabhängiges Segmentierungs-Primitiv, das über kinematische räumliche Twist-Äquivalenz definiert ist, abgeleitet aus der Kinematik starrer Körper in SE(3).
Die Arbeit liefert MoRiBo, den ersten Benchmark für die Segmentierung sich bewegender starrer Körper in der realen Welt, mit 349 handannotierten Videos, die die Domänen der robotischen Manipulation und der In-the-Wild-Interaktion von Menschen umfassen.
Die Arbeit präsentiert eine lernfreie, graphbasierte Segmentierungspipeline, die online auf RGB-Video arbeitet und 52,6 Prozent mIoU auf dem Track der robotischen Manipulation und 46,7 Prozent mIoU auf dem In-the-Wild-Track erreicht und damit alle evaluierten Baselines übertrifft.
Eine Monte-Carlo-Sensitivitätsanalyse mit 100.000 Versuchen rechtfertigt quantitativ die Reduktion des vollständigen SE(3)-Problems auf ein SE(2)-Bewegungsmodell und zeigt durchschnittliche kinematische Fehler unter 1 Prozent sowohl unter robotischen Arbeitsraumbedingungen als auch unter In-the-Wild-Bedingungen.
Reale Roboterexperimente mit zusammengesetzten, verklebten Blockobjekten zeigen, dass MotionBits-Masken erfolgreiches Turmstapeln mit einer Erfolgsrate von 60 Prozent ermöglichen, was konkrete Belege dafür liefert, dass sich Segmentierung auf Bewegungsebene in umsetzbare Manipulationshinweise übersetzt.

Grenzen und Vorbehalte

Die aktuelle Methode wird hauptsächlich unter der Annahme einer statischen Kamera evaluiert, was die Bewegungsanalyse sauber und gut abgegrenzt hält; die Erweiterung derselben MotionBit-Formulierung um eine vollständige SE(3)-Kompensation der Kamera-Eigenbewegung ist ein natürlicher nächster Schritt für Einstellungen mit stark bewegter Kamera.
MoRiBo liefert handannotierte Ground-Truth-Daten für den letzten Frame jedes Videos, passend zur wichtigsten Segmentierungsmetrik der Arbeit; künftige Benchmarks mit dichten zeitlichen Annotationen könnten weiter zeigen, wie konsistent MotionBits starre Teile über eine gesamte Sequenz hinweg verfolgen.
Die implementierte Graph-Pipeline verwendet eine SE(2)-Approximation, obwohl die MotionBit-Definition in der vollständigen SE(3)-Starrkörperbewegung verankert ist; die umfangreiche Monte-Carlo-Sensitivitätsstudie der Arbeit berichtet einen durchschnittlichen kinematischen Fehler von weniger als 1 Prozent unter den getesteten Bedingungen, was dies zu einer praktischen und gut begründeten Engineering-Entscheidung macht.
Die Roboterdemonstration verwendet einen kontrollierten Tischaufbau mit verklebten farbigen Blöcken und einem Roboterarm, was die nachgelagerten Manipulationsbelege leicht interpretierbar macht; umfassendere Tests mit unterschiedlichen Objekten, Materialien und Umgebungen wären eine wertvolle Erweiterung eines bereits überzeugenden Nutzennachweises.
Mehrere Baselines wurden nicht speziell für die Segmentierung sich bewegender starrer Körper entwickelt, und VLM-Baselines benötigen einen zusätzlichen Segmentierungsschritt, um Masken zu erzeugen; der Vergleich zeigt dennoch nützlicherweise, dass erscheinungsbasierte und sprachbasierte Systeme die Struktur auf Bewegungsebene verfehlen, die die vorgeschlagene Methode direkt erfasst.

Wie dieses Ergebnis zu lesen ist

Diese Arbeit ist am besten als ein starker grundlegender Beitrag zu lesen: Sie gibt der Video-Segmentierung starrer Körper eine klare physikalische Definition, untermauert sie mit einem neuen Benchmark und großen empirischen Gewinnen und zeigt, dass Masken auf Bewegungsebene die Robotermanipulation direkt verbessern können, während sie zugleich gut abgegrenzte Möglichkeiten für einen breiteren Einsatz in der realen Welt offenlässt.