MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian; Kejia Ren; Yu Xiang; Vicente Ordonez; Kaiyu Hang

← voltar às publicações

preprint

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang

arXiv:2603.06846

artigo pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University e da University of Texas at Dallas desenvolveram um novo sistema de segmentação de vídeo projetado para identificar e rastrear objetos rígidos individuais analisando como eles se movem fisicamente, em vez de se basear na sua aparência. O problema central que enfrentaram é que os modelos de segmentação existentes — incluindo poderosos modelos de fundação como o Segment Anything — dividem as cenas com base na aparência visual e em categorias de objetos definidas por humanos, o que faz com que eles ou dividam um único objeto composto em peças demais ou agrupem partes que se movem separadamente. Para abordar isso, a equipe definiu um novo conceito chamado "MotionBit", fundamentado na cinemática de corpos rígidos, que agrupa pixels de imagem apenas se eles compartilharem a mesma torção espacial — essencialmente o mesmo movimento rotacional e translacional instantâneo — ao longo de um trecho de vídeo. Com base nessa definição, eles criaram um algoritmo baseado em grafos e livre de treinamento que estima o movimento local de pontos amostrados da imagem usando fluxo óptico, constrói um grafo de similaridade ponderado pela consistência cinemática e, em seguida, agrupa os nós em segmentos distintos de corpos rígidos, usando o SAM 2 para refinar as fronteiras. Para avaliar a abordagem, a equipe também montou o MoRiBo, um novo benchmark rotulado manualmente com 349 vídeos abrangendo manipulação teleoperada de robôs e interações cotidianas entre humanos e objetos. Testado contra esse benchmark, seu método superou modelos de visão e linguagem de ponta e concorrentes de segmentação de movimento por uma média de 37,3 pontos percentuais em interseção sobre união média. Em uma demonstração prática com robô, o sistema permitiu que um robô empilhasse com sucesso objetos de blocos compostos em uma torre em 6 de 10 tentativas, enquanto métodos concorrentes baseados no SAM ou em raciocínio por modelo de linguagem alcançaram zero sucessos, reforçando o argumento de que a segmentação consciente do movimento poderia ser uma peça faltante significativa para robôs que operam em ambientes do mundo real e desordenados.

resumo

Corpos rígidos constituem os menores elementos manipuláveis no mundo real, e compreender como eles interagem fisicamente é fundamental para o raciocínio incorporado e a manipulação robótica. Assim, a detecção, segmentação e rastreamento precisos de corpos rígidos em movimento são essenciais para permitir que módulos de raciocínio interpretem e ajam em ambientes diversos. No entanto, os modelos de segmentação atuais, treinados em agrupamento semântico, são limitados em sua capacidade de fornecer pistas significativas em nível de interação para a realização de tarefas incorporadas. Para abordar essa lacuna, apresentamos o MotionBit, um conceito inovador que, ao contrário de formulações anteriores, define a menor unidade na segmentação baseada em movimento por meio da equivalência de torção espacial cinemática, independentemente da semântica. Neste artigo, contribuímos com (1) o conceito e a definição do MotionBit, (2) um benchmark rotulado manualmente, chamado MoRiBo, para avaliar a segmentação de corpos rígidos em movimento em vídeos de manipulação robótica e de humanos em ambientes naturais, e (3) um método de segmentação MotionBits baseado em grafos e livre de treinamento que supera os métodos de percepção incorporada de ponta em 37,3\% no mIoU com média macro no benchmark MoRiBo. Por fim, demonstramos a eficácia da segmentação MotionBits para tarefas subsequentes de raciocínio incorporado e manipulação, destacando sua importância como uma primitiva fundamental para a compreensão de interações físicas.

detalhes

comentário: 23 pages, 18 figures

citação

@article{qianmotionbits,
  title = {MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies},
  author = {Qian, Howard H. and Ren, Kejia and Xiang, Yu and Ordonez, Vicente and Hang, Kaiyu},
  journal = {arXiv preprint arXiv:2603.06846},
  url = {https://arxiv.org/abs/2603.06846},
}

perguntas, principais contribuições e limitações deste artigo geradas automaticamente

Perguntas que este artigo ajuda a responder

O que é um MotionBit e como ele é definido? Um MotionBit é a menor unidade na segmentação baseada em movimento, formalmente definida por meio da equivalência de torção espacial cinemática: pixels ou pontos pertencem ao mesmo MotionBit se e somente se compartilharem uma trajetória de torção espacial idêntica e não nula ao longo de uma janela de tempo de observação, independentemente de sua aparência visual ou classe semântica.
O que é o MoRiBo e o que ele contém? O MoRiBo é o primeiro benchmark rotulado manualmente para avaliar a segmentação de corpos rígidos em movimento em vídeos RGB do mundo real; ele contém 270 vídeos de manipulação robótica provenientes do BridgeData V2 e 79 vídeos de humanos em ambientes naturais do SA-V, com máscaras de segmentação de quadro final verificadas manualmente para cada parte rígida que exibiu movimento independente.
Como o método proposto funciona em alto nível? O método é livre de treinamento e baseado em grafos: ele amostra uma grade uniforme de pontos por quadro, estima torções espaciais locais usando fluxo óptico e um RANSAC modificado com estimação de Kabsch, constrói um grafo de similaridade de torção espacial com pesos de aresta baseados na distância de Mahalanobis, depois aplica propagação suave de rótulos seguida de agrupamento rígido de Markov e, por fim, usa o SAM 2 para refinar as fronteiras dos segmentos.
Por quanto o método proposto supera as linhas de base no MoRiBo? O método supera todas as linhas de base avaliadas por uma média de 37,3 pontos percentuais no mIoU com média macro em ambas as trilhas do benchmark, e supera as duas linhas de base mais fortes, Qwen2.5-VL e Segment Any Motion in Videos, por 32,1 pontos percentuais no mIoU.
Quais tarefas subsequentes se beneficiam da segmentação MotionBits? Duas tarefas subsequentes são demonstradas: resposta a perguntas visuais com ancoragem visual, na qual sobrepor as máscaras MotionBits como prompts de conjunto de marcas melhora substancialmente a capacidade de um modelo de visão e linguagem de identificar quais objetos se moveram, e empilhamento robótico de torres, no qual o robô alcançou 6 de 10 empilhamentos bem-sucedidos usando máscaras MotionBits, em comparação com zero sucessos para SAM, SAMIV e QwenVL.

Principais contribuições

O artigo introduz o conceito de MotionBit, uma primitiva de segmentação matematicamente fundamentada e independente de semântica, definida por meio da equivalência de torção espacial cinemática derivada da cinemática de corpos rígidos em SE(3).
O artigo contribui com o MoRiBo, o primeiro benchmark para segmentação de corpos rígidos em movimento no mundo real, com 349 vídeos rotulados manualmente abrangendo os domínios de manipulação robótica e de interação de humanos em ambientes naturais.
O artigo apresenta um pipeline de segmentação baseado em grafos e livre de treinamento que opera online em vídeo RGB e alcança 52,6 por cento de mIoU na trilha de manipulação robótica e 46,7 por cento de mIoU na trilha de humanos em ambientes naturais, superando todas as linhas de base avaliadas.
Uma análise de sensibilidade de Monte Carlo com 100.000 ensaios justifica quantitativamente a redução do problema completo em SE(3) para um modelo de movimento em SE(2), mostrando erros cinemáticos médios abaixo de 1 por cento tanto em condições de espaço de trabalho robótico quanto em ambientes naturais.
Experimentos com robôs no mundo real usando objetos de blocos colados compostos demonstram que as máscaras MotionBits permitem o empilhamento bem-sucedido de torres com uma taxa de sucesso de 60 por cento, fornecendo evidências concretas de que a segmentação em nível de movimento se traduz em pistas de manipulação acionáveis.

Limitações e ressalvas

O método atual é avaliado principalmente sob a suposição de câmera estática, o que mantém a análise de movimento limpa e bem delimitada; estender a mesma formulação do MotionBit com compensação completa de ego-movimento de câmera em SE(3) é um próximo passo natural para cenários de câmera altamente móvel.
O MoRiBo fornece verdade de referência rotulada manualmente no quadro final de cada vídeo, correspondendo à principal métrica de segmentação do artigo; benchmarks futuros com anotações temporais densas poderiam mostrar ainda mais o quão consistentemente os MotionBits rastreiam partes rígidas ao longo de uma sequência inteira.
O pipeline de grafos implementado usa uma aproximação em SE(2) mesmo que a definição do MotionBit seja fundamentada no movimento completo de corpo rígido em SE(3); o amplo estudo de sensibilidade de Monte Carlo do artigo relata menos de 1 por cento de erro cinemático médio sob as condições testadas, tornando essa uma escolha de engenharia prática e bem justificada.
A demonstração com robô usa uma configuração controlada de mesa com blocos coloridos colados e um braço robótico, o que torna a evidência de manipulação subsequente fácil de interpretar; testes mais amplos com objetos, materiais e ambientes variados seriam uma extensão valiosa de uma prova de utilidade já convincente.
Várias linhas de base não foram construídas especificamente para segmentação de corpos rígidos em movimento, e as linhas de base de VLM precisam de uma etapa extra de segmentação para produzir máscaras; a comparação ainda mostra de forma útil que sistemas baseados em aparência e em linguagem deixam de capturar a estrutura em nível de movimento que o método proposto captura diretamente.

Como interpretar este resultado

Este artigo é mais bem compreendido como uma forte contribuição fundamental: ele dá à segmentação de vídeo de corpos rígidos uma definição física clara, sustenta-a com um novo benchmark e grandes ganhos empíricos, e mostra que máscaras em nível de movimento podem melhorar diretamente a manipulação robótica, ao mesmo tempo em que deixa oportunidades bem delimitadas para uma implantação mais ampla no mundo real.