MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian; Kejia Ren; Yu Xiang; Vicente Ordonez; Kaiyu Hang

← 返回论文列表

preprint

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang

arXiv:2603.06846

论文 pdf 原始 bibtex

实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气，面向普通读者撰写。

莱斯大学和德克萨斯大学达拉斯分校的研究人员开发了一套全新的视频分割系统，旨在通过分析单个刚体物体的物理运动方式，而非依赖其外观，来识别和跟踪这些物体。他们所应对的核心问题是：现有的分割模型——包括 Segment Anything 等强大的基础模型——是依据视觉外观和人为定义的物体类别来切分场景的，这导致它们要么把单个复合物体拆分成过多碎片，要么把分别运动的部件错误地归并在一起。为解决这一问题，该团队定义了一个名为“MotionBit”的新概念，它以刚体运动学为基础，仅当图像像素在整个视频片段中共享相同的空间旋量（spatial twist）——本质上即相同的瞬时旋转与平移运动——时，才将它们归为一组。在此定义基础上，他们设计了一种无需学习、基于图的算法：利用光流估计采样图像点的局部运动，构建一个以运动学一致性加权的相似度图，然后将节点聚类为不同的刚体分割块，并用 SAM 2 来修整边界。为评估该方法，团队还构建了 MoRiBo，这是一个全新的人工标注基准，包含 349 段视频，涵盖遥操作机器人操作和日常人物交互。在该基准上的测试中，他们的方法在平均交并比（mean intersection-over-union）上平均领先最先进的视频-语言模型和运动分割竞争方法 37.3 个百分点。在一项实际的机器人演示中，该系统使机器人在 10 次试验中成功将复合积木物体堆叠成塔 6 次，而基于 SAM 或语言模型推理的竞争方法则零成功，这有力地支持了一个论点：运动感知分割可能是机器人在杂乱真实环境中运行所缺失的一个重要环节。

摘要

刚体是现实世界中最小的可操作元素，理解它们之间如何进行物理交互是具身推理与机器人操作的基础。因此，对运动中的刚体进行准确的检测、分割与跟踪，对于使推理模块能够在多样环境中进行解读和行动至关重要。然而，当前基于语义分组训练的分割模型，在为完成具身任务提供有意义的交互层级线索方面能力有限。为弥补这一空白，我们提出了 MotionBit 这一全新概念，与以往的表述不同，它通过运动学空间旋量等价性（kinematic spatial twist equivalence）来定义基于运动的分割中的最小单元，而与语义无关。在本文中，我们贡献了：（1）MotionBit 概念及其定义；（2）一个名为 MoRiBo 的人工标注基准，用于评估机器人操作与真实场景人类视频中的运动刚体分割；（3）一种无需学习、基于图的 MotionBits 分割方法，在 MoRiBo 基准上以宏平均 mIoU 高出最先进具身感知方法 37.3\%。最后，我们展示了 MotionBits 分割在下游具身推理与操作任务中的有效性，凸显了它作为理解物理交互的基础性原语的重要性。

详情

备注: 23 pages, 18 figures

引用

@article{qianmotionbits,
  title = {MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies},
  author = {Qian, Howard H. and Ren, Kejia and Xiang, Yu and Ordonez, Vicente and Hang, Kaiyu},
  journal = {arXiv preprint arXiv:2603.06846},
  url = {https://arxiv.org/abs/2603.06846},
}

自动生成的本文相关问题、主要贡献与局限

本文有助于回答的问题

什么是 MotionBit，它是如何定义的？MotionBit 是基于运动的分割中的最小单元，其形式化定义通过运动学空间旋量等价性给出：当且仅当像素或点在整个观测时间窗内共享相同且非零的空间旋量轨迹时，它们才属于同一个 MotionBit，而与其视觉外观或语义类别无关。
什么是 MoRiBo，它包含哪些内容？MoRiBo 是首个用于评估真实世界 RGB 视频中运动刚体分割的人工标注基准；它包含来自 BridgeData V2 的 270 段机器人操作视频和来自 SA-V 的 79 段真实场景人类视频，并为每个表现出独立运动的刚体部件提供了经人工核验的末帧分割掩码。
所提出的方法在总体上是如何运作的？该方法无需学习且基于图：它在每一帧上采样一个均匀网格的点，利用光流和一种结合 Kabsch 估计的改进 RANSAC 来估计局部空间旋量，构建一个以马氏距离（Mahalanobis-distance）作为边权重的空间旋量相似度图，随后先进行软标签传播、再进行硬 Markov 聚类，最后使用 SAM 2 来细化分割边界。
所提出的方法在 MoRiBo 上比基线方法高出多少？在两个基准赛道上，该方法在宏平均 mIoU 上平均领先所有受评基线 37.3 个百分点，并在 mIoU 上领先最强的两个基线 Qwen2.5-VL 和 Segment Any Motion in Videos 达 32.1 个百分点。
哪些下游任务能从 MotionBits 分割中获益？文中演示了两个下游任务：一是视觉接地的视觉问答（visually grounded visual question answering），将 MotionBits 掩码作为标记集（set-of-mark）提示叠加，可大幅提升视觉-语言模型识别哪些物体发生运动的能力；二是机器人堆塔任务，使用 MotionBits 掩码时机器人在 10 次中成功堆叠 6 次，而 SAM、SAMIV 和 QwenVL 则零成功。

主要贡献

本文提出了 MotionBit 概念，这是一种具有数学基础、与语义无关的分割原语，其定义通过源自 SE(3) 刚体运动学的运动学空间旋量等价性给出。
本文贡献了 MoRiBo，这是首个面向真实世界运动刚体分割的基准，包含 349 段人工标注视频，涵盖机器人操作与真实场景人类交互两个领域。
本文提出了一种无需学习、基于图的分割流程，可在 RGB 视频上在线运行，并在机器人操作赛道上达到 52.6% 的 mIoU、在真实场景人类赛道上达到 46.7% 的 mIoU，超越了所有受评基线。
一项包含 100,000 次试验的蒙特卡洛敏感性分析从定量上论证了将完整的 SE(3) 问题简化为 SE(2) 运动模型的合理性，结果表明在机器人工作空间和真实场景两种条件下，平均运动学误差均低于 1%。
针对复合粘合积木物体的真实机器人实验表明，MotionBits 掩码能够以 60% 的成功率实现堆塔，为运动层级分割可转化为可操作的操作线索提供了切实证据。

局限与注意事项

当前方法主要在静态相机假设下进行评估，这使运动分析保持清晰且范围明确；对于高度移动的相机场景，用完整的 SE(3) 相机自运动补偿来扩展同一套 MotionBit 表述是一个自然的下一步。
MoRiBo 在每段视频的末帧上提供人工标注的真值，与本文的主要分割指标相匹配；未来带有密集时序标注的基准能够进一步展示 MotionBits 在整个序列中跟踪刚体部件的一致性。
尽管 MotionBit 定义以完整的 SE(3) 刚体运动为基础，所实现的图流程使用了 SE(2) 近似；本文大规模的蒙特卡洛敏感性研究报告称，在所测试的条件下平均运动学误差小于 1%，这使其成为一项实用且充分论证的工程选择。
机器人演示采用了一个受控的桌面布置，使用粘合的彩色积木和一只机械臂，这使下游操作的证据易于解读；用更多样的物体、材料和环境进行更广泛的测试，将是对这一已颇具说服力的实用性证明的有价值扩展。
若干基线并非专门为运动刚体分割而设计，且 VLM 基线需要额外的分割步骤才能生成掩码；尽管如此，该比较仍有效地表明，基于外观和基于语言的系统会遗漏所提出方法可直接捕捉的运动层级结构。

如何理解这一结果

这篇论文最好被理解为一项强有力的基础性贡献：它为刚体视频分割赋予了清晰的物理定义，以一个新基准和巨大的实证收益作为支撑，并展示了运动层级掩码能够直接提升机器人操作能力，同时为更广泛的真实世界部署留下了范围明确的机会。