MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian; Kejia Ren; Yu Xiang; Vicente Ordonez; Kaiyu Hang

← назад к публикациям

preprint

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang

arXiv:2603.06846

статья pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University и University of Texas at Dallas разработали новую систему сегментации видео, предназначенную для выявления и трекинга отдельных твёрдых объектов путём анализа того, как они физически движутся, а не на основе того, как они выглядят. Основная проблема, которую они решали, состоит в том, что существующие модели сегментации — включая мощные базовые модели вроде Segment Anything — разбивают сцены на основе визуального внешнего вида и заданных человеком категорий объектов, из-за чего они либо дробят единый составной объект на слишком много частей, либо объединяют по отдельности движущиеся части. Чтобы решить эту проблему, команда определила новую концепцию под названием «MotionBit», основанную на кинематике твёрдого тела, которая группирует пиксели изображения вместе только если они разделяют один и тот же пространственный твист (spatial twist) — по сути, одно и то же мгновенное вращательное и поступательное движение — на протяжении всего видеоклипа. Опираясь на это определение, они создали не требующий обучения графовый алгоритм, который оценивает локальное движение для выбранных точек изображения с помощью оптического потока, строит граф сходства, взвешенный по кинематической согласованности, а затем кластеризует узлы в отдельные сегменты твёрдых тел, используя SAM 2 для уточнения границ. Для оценки подхода команда также собрала MoRiBo — новый размеченный вручную бенчмарк из 349 видео, охватывающих телеоперируемую роботизированную манипуляцию и повседневные взаимодействия человека с объектами. При тестировании на этом бенчмарке их метод превзошёл современные модели зрения и языка для видео и конкурирующие методы сегментации движения в среднем на 37,3 процентного пункта по mean intersection-over-union. В практической робототехнической демонстрации система позволила роботу успешно собрать составные блочные объекты в башню в 6 из 10 попыток, тогда как конкурирующие методы на основе SAM или рассуждений языковой модели не добились ни одного успеха, что подкрепляет аргумент о том, что сегментация с учётом движения может стать значимым недостающим элементом для роботов, работающих в загромождённых, реальных условиях.

аннотация

Твёрдые тела представляют собой наименьшие манипулируемые элементы в реальном мире, и понимание того, как они физически взаимодействуют, является основополагающим для воплощённого (embodied) рассуждения и роботизированной манипуляции. Поэтому точное детектирование, сегментация и трекинг движущихся твёрдых тел крайне важны для того, чтобы модули рассуждения могли интерпретировать окружение и действовать в нём в самых разных условиях. Однако современные модели сегментации, обученные на семантической группировке, ограничены в своей способности давать значимые подсказки на уровне взаимодействий, необходимые для выполнения воплощённых задач. Чтобы устранить этот пробел, мы вводим MotionBit — новую концепцию, которая, в отличие от прежних формулировок, определяет наименьшую единицу в сегментации на основе движения через кинематическую эквивалентность пространственного твиста (spatial twist), независимо от семантики. В этой статье мы предлагаем (1) концепцию и определение MotionBit, (2) размеченный вручную бенчмарк под названием MoRiBo для оценки сегментации движущихся твёрдых тел на видео роботизированной манипуляции и видео с людьми в естественных условиях, а также (3) не требующий обучения графовый метод сегментации MotionBits, который превосходит современные методы воплощённого восприятия на 37,3\% по macro-averaged mIoU на бенчмарке MoRiBo. Наконец, мы демонстрируем эффективность сегментации MotionBits для целевых задач воплощённого рассуждения и манипуляции, подчёркивая её важность как фундаментального примитива для понимания физических взаимодействий.

подробности

комментарий: 23 pages, 18 figures

цитирование

@article{qianmotionbits,
  title = {MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies},
  author = {Qian, Howard H. and Ren, Kejia and Xiang, Yu and Ordonez, Vicente and Hang, Kaiyu},
  journal = {arXiv preprint arXiv:2603.06846},
  url = {https://arxiv.org/abs/2603.06846},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

Что такое MotionBit и как он определяется? MotionBit — это наименьшая единица в сегментации на основе движения, формально определяемая через кинематическую эквивалентность пространственного твиста (spatial twist): пиксели или точки принадлежат одному и тому же MotionBit тогда и только тогда, когда они разделяют идентичную ненулевую траекторию пространственного твиста на протяжении окна наблюдения, независимо от их визуального внешнего вида или семантического класса.
Что такое MoRiBo и что он содержит? MoRiBo — это первый размеченный вручную бенчмарк для оценки сегментации движущихся твёрдых тел на реальных RGB-видео; он содержит 270 видео роботизированной манипуляции, взятых из BridgeData V2, и 79 видео с людьми в естественных условиях из SA-V, с проверенными вручную масками сегментации последнего кадра для каждой твёрдой части, которая демонстрировала независимое движение.
Как работает предложенный метод на верхнем уровне? Метод не требует обучения и основан на графах: он сэмплирует равномерную сетку точек на кадр, оценивает локальные пространственные твисты с помощью оптического потока и модифицированного RANSAC с оценкой Кабша, строит граф сходства пространственных твистов с весами рёбер на основе расстояния Махаланобиса, затем применяет мягкое распространение меток с последующей жёсткой марковской кластеризацией и, наконец, использует SAM 2 для уточнения границ сегментов.
Насколько предложенный метод превосходит базовые модели на MoRiBo? Метод превосходит все оценённые базовые модели в среднем на 37,3 процентного пункта по macro-averaged mIoU на обоих треках бенчмарка и превосходит две сильнейшие базовые модели, Qwen2.5-VL и Segment Any Motion in Videos, на 32,1 процентного пункта по mIoU.
Какие целевые задачи выигрывают от сегментации MotionBits? Продемонстрированы две целевые задачи: визуально локализованный визуальный ответ на вопросы (visual question answering), где наложение масок MotionBits в качестве set-of-mark промптов существенно улучшает способность модели зрения и языка определять, какие объекты двигались, и роботизированная сборка башни, где робот добился 6 из 10 успешных сборок с использованием масок MotionBits по сравнению с нулём успехов у SAM, SAMIV и QwenVL.

Основные вклады

Статья вводит концепцию MotionBit — математически обоснованный, независимый от семантики примитив сегментации, определяемый через кинематическую эквивалентность пространственного твиста, выведенную из кинематики твёрдого тела в SE(3).
Статья предлагает MoRiBo — первый бенчмарк для сегментации движущихся твёрдых тел в реальном мире, содержащий 349 размеченных вручную видео, охватывающих домены роботизированной манипуляции и взаимодействия с людьми в естественных условиях.
Статья представляет не требующий обучения графовый конвейер сегментации, который работает онлайн на RGB-видео и достигает 52,6 процента mIoU на треке роботизированной манипуляции и 46,7 процента mIoU на треке с людьми в естественных условиях, превосходя все оценённые базовые модели.
Анализ чувствительности методом Монте-Карло со 100 000 испытаний количественно обосновывает сведение полной задачи SE(3) к модели движения SE(2), показывая средние кинематические ошибки ниже 1 процента как в условиях роботизированного рабочего пространства, так и в естественных условиях.
Эксперименты с реальным роботом на составных склеенных блочных объектах демонстрируют, что маски MotionBits обеспечивают успешную сборку башни с показателем успеха 60 процентов, предоставляя конкретное свидетельство того, что сегментация на уровне движения преобразуется в применимые на практике подсказки для манипуляции.

Ограничения и предостережения

Текущий метод оценивается в основном в предположении статичной камеры, что сохраняет анализ движения чистым и хорошо ограниченным; расширение той же формулировки MotionBit с полной компенсацией эго-движения камеры в SE(3) является естественным следующим шагом для условий с высокоподвижной камерой.
MoRiBo предоставляет размеченную вручную эталонную разметку на последнем кадре каждого видео, что соответствует основной метрике сегментации в статье; будущие бенчмарки с плотными временными аннотациями могли бы дополнительно показать, насколько согласованно MotionBits отслеживают твёрдые части на протяжении всей последовательности.
Реализованный графовый конвейер использует приближение SE(2), хотя определение MotionBit основано на полном движении твёрдого тела в SE(3); масштабное исследование чувствительности методом Монте-Карло в статье сообщает о менее чем 1 проценте средней кинематической ошибки в протестированных условиях, что делает это практичным и хорошо обоснованным инженерным выбором.
Демонстрация с роботом использует контролируемую настольную установку со склеенными цветными блоками и одной роботизированной рукой, что облегчает интерпретацию свидетельств целевой манипуляции; более широкие тесты с разнообразными объектами, материалами и средами были бы ценным расширением уже убедительного доказательства полезности.
Несколько базовых моделей не были созданы специально для сегментации движущихся твёрдых тел, а базовым моделям VLM требуется дополнительный шаг сегментации для получения масок; тем не менее сравнение убедительно показывает, что системы на основе внешнего вида и языка упускают структуру на уровне движения, которую предложенный метод улавливает напрямую.

Как интерпретировать этот результат

Эту статью лучше всего воспринимать как сильный основополагающий вклад: она даёт сегментации твёрдых тел на видео чёткое физическое определение, подкрепляет его новым бенчмарком и значительным эмпирическим приростом и показывает, что маски на уровне движения могут напрямую улучшать роботизированную манипуляцию, оставляя при этом чётко очерченные возможности для более широкого применения в реальном мире.