MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian; Kejia Ren; Yu Xiang; Vicente Ordonez; Kaiyu Hang

← retour aux publications

preprint

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang

arXiv:2603.06846

article pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de Rice University et de l'University of Texas at Dallas ont mis au point un nouveau système de segmentation vidéo conçu pour identifier et suivre des objets rigides individuels en analysant la manière dont ils se déplacent physiquement, plutôt qu'en se fiant à leur apparence. Le problème central qu'ils ont abordé est que les modèles de segmentation existants — y compris de puissants modèles de fondation comme Segment Anything — découpent les scènes en fonction de l'apparence visuelle et de catégories d'objets définies par l'humain, ce qui les amène soit à fractionner un objet composite unique en trop de morceaux, soit à regrouper des parties se déplaçant séparément. Pour y remédier, l'équipe a défini un nouveau concept appelé « MotionBit », ancré dans la cinématique des corps rigides, qui ne regroupe les pixels d'une image que s'ils partagent le même torseur spatial — essentiellement le même mouvement instantané de rotation et de translation — tout au long d'un clip vidéo. À partir de cette définition, ils ont créé un algorithme fondé sur les graphes et sans apprentissage qui estime le mouvement local de points d'image échantillonnés à l'aide du flux optique, construit un graphe de similarité pondéré par la cohérence cinématique, puis regroupe les nœuds en segments de corps rigides distincts, en utilisant SAM 2 pour nettoyer les contours. Pour évaluer l'approche, l'équipe a également constitué MoRiBo, un nouveau banc d'essai annoté manuellement de 349 vidéos couvrant la manipulation robotique téléopérée et les interactions humain-objet du quotidien. Testée sur ce banc d'essai, leur méthode a surpassé les modèles vidéo-langage de pointe et les concurrents de segmentation par le mouvement de 37,3 points de pourcentage en moyenne en intersection sur union moyenne. Dans une démonstration robotique concrète, le système a permis à un robot d'empiler avec succès des objets-blocs composites en une tour dans 6 essais sur 10, tandis que les méthodes concurrentes fondées sur SAM ou sur le raisonnement par modèle de langage n'ont obtenu aucun succès, ce qui appuie l'argument selon lequel la segmentation tenant compte du mouvement pourrait être une pièce manquante significative pour les robots évoluant dans des environnements réels encombrés.

résumé

Les corps rigides constituent les plus petits éléments manipulables du monde réel, et comprendre comment ils interagissent physiquement est fondamental pour le raisonnement incarné et la manipulation robotique. Ainsi, la détection, la segmentation et le suivi précis des corps rigides en mouvement sont essentiels pour permettre aux modules de raisonnement d'interpréter et d'agir dans des environnements variés. Cependant, les modèles de segmentation actuels entraînés au regroupement sémantique sont limités dans leur capacité à fournir des indices significatifs au niveau de l'interaction pour accomplir des tâches incarnées. Pour combler cette lacune, nous présentons MotionBit, un concept novateur qui, contrairement aux formulations antérieures, définit la plus petite unité de la segmentation fondée sur le mouvement par l'équivalence de torseur cinématique spatial, indépendamment de la sémantique. Dans cet article, nous apportons (1) le concept et la définition de MotionBit, (2) un banc d'essai annoté manuellement, appelé MoRiBo, pour évaluer la segmentation de corps rigides en mouvement dans des vidéos de manipulation robotique et de scènes humaines réelles, et (3) une méthode de segmentation MotionBits fondée sur les graphes et sans apprentissage qui surpasse les méthodes de perception incarnée de pointe de 37,3\% en mIoU macro-moyenné sur le banc d'essai MoRiBo. Enfin, nous démontrons l'efficacité de la segmentation MotionBits pour les tâches en aval de raisonnement incarné et de manipulation, soulignant son importance en tant que primitive fondamentale pour comprendre les interactions physiques.

détails

commentaire: 23 pages, 18 figures

citation

@article{qianmotionbits,
  title = {MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies},
  author = {Qian, Howard H. and Ren, Kejia and Xiang, Yu and Ordonez, Vicente and Hang, Kaiyu},
  journal = {arXiv preprint arXiv:2603.06846},
  url = {https://arxiv.org/abs/2603.06846},
}

questions, principales contributions et limites de cet article générées automatiquement

Questions auxquelles cet article aide à répondre

Qu'est-ce qu'un MotionBit et comment est-il défini ? Un MotionBit est la plus petite unité de la segmentation fondée sur le mouvement, formellement définie par l'équivalence de torseur cinématique spatial : des pixels ou des points appartiennent au même MotionBit si et seulement s'ils partagent une trajectoire de torseur spatial identique et non nulle tout au long d'une fenêtre temporelle d'observation, indépendamment de leur apparence visuelle ou de leur classe sémantique.
Qu'est-ce que MoRiBo et que contient-il ? MoRiBo est le premier banc d'essai annoté manuellement pour évaluer la segmentation de corps rigides en mouvement dans des vidéos RVB du monde réel ; il contient 270 vidéos de manipulation robotique provenant de BridgeData V2 et 79 vidéos de scènes humaines réelles issues de SA-V, avec des masques de segmentation de l'image finale vérifiés manuellement pour chaque partie rigide ayant présenté un mouvement indépendant.
Comment la méthode proposée fonctionne-t-elle dans les grandes lignes ? La méthode est sans apprentissage et fondée sur les graphes : elle échantillonne une grille uniforme de points par image, estime les torseurs spatiaux locaux à l'aide du flux optique et d'un RANSAC modifié avec estimation de Kabsch, construit un graphe de similarité de torseur spatial avec des poids d'arêtes fondés sur la distance de Mahalanobis, puis applique une propagation d'étiquettes souple suivie d'un regroupement de Markov dur, et utilise enfin SAM 2 pour affiner les contours des segments.
De combien la méthode proposée surpasse-t-elle les références sur MoRiBo ? La méthode surpasse toutes les références évaluées de 37,3 points de pourcentage en moyenne en mIoU macro-moyenné sur les deux pistes du banc d'essai, et surpasse les deux références les plus fortes, Qwen2.5-VL et Segment Any Motion in Videos, de 32,1 points de pourcentage en mIoU.
Quelles tâches en aval bénéficient de la segmentation MotionBits ? Deux tâches en aval sont démontrées : la réponse à des questions visuelles ancrées visuellement, où la superposition de masques MotionBits comme invites de type set-of-mark améliore substantiellement la capacité d'un modèle de vision-langage à identifier les objets qui ont bougé, et l'empilement de tours robotique, où le robot a réussi 6 empilements sur 10 en utilisant les masques MotionBits contre aucun succès pour SAM, SAMIV et QwenVL.

Principales contributions

L'article introduit le concept de MotionBit, une primitive de segmentation mathématiquement fondée et indépendante de la sémantique, définie par l'équivalence de torseur cinématique spatial dérivée de la cinématique des corps rigides dans SE(3).
L'article apporte MoRiBo, le premier banc d'essai pour la segmentation de corps rigides en mouvement dans le monde réel, avec 349 vidéos annotées manuellement couvrant les domaines de la manipulation robotique et de l'interaction humaine en conditions réelles.
L'article présente un pipeline de segmentation fondé sur les graphes et sans apprentissage qui fonctionne en ligne sur de la vidéo RVB et atteint 52,6 pour cent de mIoU sur la piste de manipulation robotique et 46,7 pour cent de mIoU sur la piste de scènes humaines réelles, surpassant toutes les références évaluées.
Une analyse de sensibilité de Monte-Carlo avec 100 000 essais justifie quantitativement la réduction du problème complet SE(3) à un modèle de mouvement SE(2), montrant des erreurs cinématiques moyennes inférieures à 1 pour cent à la fois dans des conditions d'espace de travail robotique et en conditions réelles.
Des expériences robotiques en conditions réelles avec des objets-blocs composites collés démontrent que les masques MotionBits permettent un empilement de tours réussi avec un taux de réussite de 60 pour cent, fournissant une preuve concrète que la segmentation au niveau du mouvement se traduit par des indices de manipulation exploitables.

Limites et mises en garde

La méthode actuelle est évaluée principalement sous l'hypothèse d'une caméra statique, ce qui garde l'analyse du mouvement nette et bien circonscrite ; étendre la même formulation MotionBit avec une compensation complète du mouvement propre de la caméra en SE(3) constitue une prochaine étape naturelle pour les contextes de caméra fortement mobile.
MoRiBo fournit une vérité terrain annotée manuellement sur l'image finale de chaque vidéo, en cohérence avec la principale métrique de segmentation de l'article ; de futurs bancs d'essai dotés d'annotations temporelles denses pourraient montrer davantage avec quelle constance les MotionBits suivent les parties rigides tout au long d'une séquence entière.
Le pipeline de graphes mis en œuvre utilise une approximation SE(2) même si la définition de MotionBit est ancrée dans le mouvement complet de corps rigide en SE(3) ; la vaste étude de sensibilité de Monte-Carlo de l'article rapporte une erreur cinématique moyenne inférieure à 1 pour cent dans les conditions testées, ce qui en fait un choix d'ingénierie pratique et bien justifié.
La démonstration robotique utilise un montage de table contrôlé avec des blocs colorés collés et un seul bras robotique, ce qui rend les preuves de manipulation en aval faciles à interpréter ; des tests plus larges avec des objets, des matériaux et des environnements variés constitueraient une extension précieuse d'une preuve d'utilité déjà convaincante.
Plusieurs références n'ont pas été conçues spécifiquement pour la segmentation de corps rigides en mouvement, et les références de type VLM nécessitent une étape de segmentation supplémentaire pour produire des masques ; la comparaison montre tout de même utilement que les systèmes fondés sur l'apparence et sur le langage passent à côté de la structure au niveau du mouvement que la méthode proposée capture directement.

Comment interpréter ce résultat

Cet article se lit au mieux comme une solide contribution fondamentale : il donne à la segmentation vidéo des corps rigides une définition physique claire, l'étaye par un nouveau banc d'essai et d'importants gains empiriques, et montre que les masques au niveau du mouvement peuvent directement améliorer la manipulation robotique tout en laissant des occasions bien circonscrites pour un déploiement plus large en conditions réelles.