MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian; Kejia Ren; Yu Xiang; Vicente Ordonez; Kaiyu Hang

← volver a publicaciones

preprint

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang

arXiv:2603.06846

artículo pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice y la Universidad de Texas en Dallas han desarrollado un nuevo sistema de segmentación de vídeo diseñado para identificar y seguir objetos rígidos individuales analizando cómo se mueven físicamente, en lugar de basarse en su apariencia. El problema central que abordaron es que los modelos de segmentación existentes —incluidos potentes modelos fundacionales como Segment Anything— dividen las escenas según la apariencia visual y categorías de objetos definidas por humanos, lo que provoca que o bien partan un único objeto compuesto en demasiados fragmentos o bien agrupen partes que se mueven por separado. Para abordarlo, el equipo definió un nuevo concepto denominado «MotionBit», fundamentado en la cinemática de cuerpos rígidos, que agrupa los píxeles de una imagen solo si comparten la misma torsión espacial —esencialmente el mismo movimiento rotacional y traslacional instantáneo— a lo largo de un clip de vídeo. A partir de esa definición, crearon un algoritmo basado en grafos y sin aprendizaje que estima el movimiento local de puntos muestreados de la imagen mediante flujo óptico, construye un grafo de similitud ponderado por consistencia cinemática y luego agrupa los nodos en segmentos rígidos distintos, usando SAM 2 para depurar los límites. Para evaluar el enfoque, el equipo también reunió MoRiBo, un nuevo benchmark etiquetado a mano de 349 vídeos que abarcan manipulación robótica teleoperada e interacciones cotidianas entre personas y objetos. Probado frente a ese benchmark, su método superó a los modelos de vanguardia de lenguaje y visión y a los competidores de segmentación por movimiento en un promedio de 37,3 puntos porcentuales en intersección sobre unión media. En una demostración robótica práctica, el sistema permitió a un robot apilar con éxito objetos compuestos de bloques en una torre en 6 de 10 intentos, mientras que los métodos competidores basados en SAM o en razonamiento con modelos de lenguaje no lograron ningún éxito, lo que refuerza el argumento de que la segmentación consciente del movimiento podría ser una pieza significativa que falta para que los robots operen en entornos del mundo real abarrotados.

resumen

Los cuerpos rígidos constituyen los elementos manipulables más pequeños del mundo real, y comprender cómo interactúan físicamente es fundamental para el razonamiento corporeizado y la manipulación robótica. Por ello, la detección, segmentación y seguimiento precisos de cuerpos rígidos en movimiento son esenciales para que los módulos de razonamiento puedan interpretar y actuar en entornos diversos. Sin embargo, los modelos de segmentación actuales, entrenados con agrupamiento semántico, presentan una capacidad limitada para proporcionar señales significativas a nivel de interacción que permitan completar tareas corporeizadas. Para abordar esta carencia, presentamos MotionBit, un concepto novedoso que, a diferencia de las formulaciones previas, define la unidad más pequeña en la segmentación basada en movimiento mediante la equivalencia de torsión espacial cinemática, con independencia de la semántica. En este artículo aportamos (1) el concepto y la definición de MotionBit, (2) un benchmark etiquetado a mano, denominado MoRiBo, para evaluar la segmentación de cuerpos rígidos en movimiento en vídeos de manipulación robótica y de personas en situaciones reales, y (3) un método de segmentación de MotionBits basado en grafos y sin aprendizaje que supera a los métodos de percepción corporeizada de vanguardia en un 37,3\% en mIoU promediado por macro en el benchmark MoRiBo. Por último, demostramos la eficacia de la segmentación con MotionBits para tareas posteriores de razonamiento y manipulación corporeizados, resaltando su importancia como primitiva fundamental para comprender las interacciones físicas.

detalles

comentario: 23 pages, 18 figures

cita

@article{qianmotionbits,
  title = {MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies},
  author = {Qian, Howard H. and Ren, Kejia and Xiang, Yu and Ordonez, Vicente and Hang, Kaiyu},
  journal = {arXiv preprint arXiv:2603.06846},
  url = {https://arxiv.org/abs/2603.06846},
}

preguntas, contribuciones principales y limitaciones de este artículo generadas automáticamente

Preguntas que ayuda a responder este artículo

¿Qué es un MotionBit y cómo se define? Un MotionBit es la unidad más pequeña en la segmentación basada en movimiento, definida formalmente mediante la equivalencia de torsión espacial cinemática: los píxeles o puntos pertenecen al mismo MotionBit si y solo si comparten una trayectoria de torsión espacial idéntica y no nula a lo largo de una ventana temporal de observación, con independencia de su apariencia visual o clase semántica.
¿Qué es MoRiBo y qué contiene? MoRiBo es el primer benchmark etiquetado a mano para evaluar la segmentación de cuerpos rígidos en movimiento en vídeos RGB del mundo real; contiene 270 vídeos de manipulación robótica procedentes de BridgeData V2 y 79 vídeos de personas en situaciones reales de SA-V, con máscaras de segmentación del fotograma final verificadas manualmente para cada parte rígida que exhibió movimiento independiente.
¿Cómo funciona el método propuesto a alto nivel? El método es sin aprendizaje y basado en grafos: muestrea una rejilla uniforme de puntos por fotograma, estima torsiones espaciales locales mediante flujo óptico y un RANSAC modificado con estimación de Kabsch, construye un grafo de similitud de torsión espacial con pesos de aristas basados en la distancia de Mahalanobis, luego aplica propagación de etiquetas suave seguida de agrupamiento de Markov duro y, por último, usa SAM 2 para refinar los límites de los segmentos.
¿En cuánto supera el método propuesto a las líneas base en MoRiBo? El método supera a todas las líneas base evaluadas en un promedio de 37,3 puntos porcentuales en mIoU promediado por macro en ambas pistas del benchmark, y supera a las dos líneas base más fuertes, Qwen2.5-VL y Segment Any Motion in Videos, en 32,1 puntos porcentuales en mIoU.
¿Qué tareas posteriores se benefician de la segmentación con MotionBits? Se demuestran dos tareas posteriores: la respuesta a preguntas visuales con anclaje visual, donde superponer máscaras de MotionBits como prompts de conjunto de marcas mejora sustancialmente la capacidad de un modelo de lenguaje y visión para identificar qué objetos se movieron, y el apilamiento robótico de torres, donde el robot logró 6 de 10 apilamientos exitosos usando máscaras de MotionBits frente a cero éxitos de SAM, SAMIV y QwenVL.

Contribuciones principales

El artículo introduce el concepto de MotionBit, una primitiva de segmentación matemáticamente fundamentada e independiente de la semántica, definida mediante la equivalencia de torsión espacial cinemática derivada de la cinemática de cuerpos rígidos en SE(3).
El artículo aporta MoRiBo, el primer benchmark para segmentación de cuerpos rígidos en movimiento en el mundo real, con 349 vídeos etiquetados a mano que abarcan los dominios de manipulación robótica e interacción de personas en situaciones reales.
El artículo presenta una canalización de segmentación basada en grafos y sin aprendizaje que opera en línea sobre vídeo RGB y alcanza un 52,6 por ciento de mIoU en la pista de manipulación robótica y un 46,7 por ciento de mIoU en la pista de personas en situaciones reales, superando a todas las líneas base evaluadas.
Un análisis de sensibilidad de Monte Carlo con 100.000 ensayos justifica cuantitativamente la reducción del problema SE(3) completo a un modelo de movimiento SE(2), mostrando errores cinemáticos promedio inferiores al 1 por ciento tanto en condiciones de espacio de trabajo robótico como en situaciones reales.
Experimentos con robots reales utilizando objetos compuestos de bloques pegados demuestran que las máscaras de MotionBits permiten apilar torres con éxito con una tasa del 60 por ciento, lo que proporciona evidencia concreta de que la segmentación a nivel de movimiento se traduce en señales de manipulación accionables.

Limitaciones y advertencias

El método actual se evalúa principalmente bajo el supuesto de cámara estática, lo que mantiene el análisis de movimiento limpio y bien acotado; extender la misma formulación de MotionBit con compensación completa del ego-movimiento de la cámara en SE(3) es un siguiente paso natural para configuraciones de cámara muy móviles.
MoRiBo proporciona verdad de referencia etiquetada a mano en el fotograma final de cada vídeo, lo que coincide con la métrica de segmentación principal del artículo; benchmarks futuros con anotaciones temporales densas podrían mostrar con mayor claridad cuán consistentemente los MotionBits siguen las partes rígidas a lo largo de toda una secuencia.
La canalización de grafos implementada utiliza una aproximación SE(2) aunque la definición de MotionBit se fundamenta en el movimiento completo de cuerpos rígidos en SE(3); el amplio estudio de sensibilidad de Monte Carlo del artículo reporta menos de un 1 por ciento de error cinemático promedio bajo las condiciones probadas, lo que convierte esto en una decisión de ingeniería práctica y bien justificada.
La demostración con robot utiliza una configuración controlada de sobremesa con bloques de colores pegados y un único brazo robótico, lo que facilita la interpretación de la evidencia de manipulación posterior; pruebas más amplias con objetos, materiales y entornos variados serían una extensión valiosa de una prueba de utilidad ya convincente.
Varias líneas base no fueron diseñadas específicamente para la segmentación de cuerpos rígidos en movimiento, y las líneas base de VLM necesitan un paso adicional de segmentación para producir máscaras; aun así, la comparación muestra de forma útil que los sistemas basados en apariencia y en lenguaje pasan por alto la estructura a nivel de movimiento que el método propuesto captura directamente.

Cómo interpretar este resultado

Este artículo se lee mejor como una sólida contribución fundacional: da a la segmentación de vídeo de cuerpos rígidos una definición física clara, la respalda con un nuevo benchmark y grandes mejoras empíricas, y muestra que las máscaras a nivel de movimiento pueden mejorar directamente la manipulación robótica, dejando a la vez oportunidades bien acotadas para un despliegue más amplio en el mundo real.