MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian; Kejia Ren; Yu Xiang; Vicente Ordonez; Kaiyu Hang

← torna alle pubblicazioni

preprint

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang

arXiv:2603.06846

articolo pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Rice University e della University of Texas at Dallas hanno sviluppato un nuovo sistema di segmentazione video progettato per identificare e tracciare singoli oggetti rigidi analizzando come si muovono fisicamente, anziché basandosi sul loro aspetto. Il problema centrale che hanno affrontato è che i modelli di segmentazione esistenti — inclusi potenti foundation model come Segment Anything — suddividono le scene in base all'aspetto visivo e alle categorie di oggetti definite dall'uomo, il che li porta a frammentare un singolo oggetto composito in troppe parti oppure ad accorpare parti che si muovono separatamente. Per affrontare questo problema, il team ha definito un nuovo concetto chiamato "MotionBit", radicato nella cinematica dei corpi rigidi, che raggruppa i pixel dell'immagine solo se condividono lo stesso twist spaziale — essenzialmente lo stesso movimento rotazionale e traslazionale istantaneo — per tutta la durata di una clip video. Basandosi su questa definizione, hanno creato un algoritmo basato su grafi e privo di addestramento che stima il movimento locale per punti dell'immagine campionati utilizzando il flusso ottico, costruisce un grafo di similarità ponderato dalla coerenza cinematica e quindi raggruppa i nodi in distinti segmenti di corpi rigidi, utilizzando SAM 2 per ripulire i contorni. Per valutare l'approccio, il team ha inoltre assemblato MoRiBo, un nuovo benchmark etichettato a mano composto da 349 video che spaziano dalla manipolazione di robot teleoperati alle quotidiane interazioni umano-oggetto. Testato su quel benchmark, il loro metodo ha superato i modelli video-language allo stato dell'arte e i concorrenti di segmentazione del movimento di una media di 37,3 punti percentuali in intersection-over-union media. In una dimostrazione robotica pratica, il sistema ha permesso a un robot di impilare con successo oggetti a blocchi compositi in una torre in 6 prove su 10, mentre i metodi concorrenti basati su SAM o sul ragionamento di modelli linguistici hanno ottenuto zero successi, a sostegno della tesi secondo cui una segmentazione consapevole del movimento potrebbe essere un tassello mancante significativo per i robot che operano in ambienti reali e affollati.

abstract

I corpi rigidi costituiscono gli elementi manipolabili più piccoli del mondo reale, e comprendere come interagiscono fisicamente è fondamentale per il ragionamento incarnato e la manipolazione robotica. Pertanto, il rilevamento, la segmentazione e il tracciamento accurati dei corpi rigidi in movimento sono essenziali per consentire ai moduli di ragionamento di interpretare e agire in ambienti diversi. Tuttavia, gli attuali modelli di segmentazione addestrati sul raggruppamento semantico sono limitati nella loro capacità di fornire indizi significativi a livello di interazione per completare compiti incarnati. Per colmare questa lacuna, introduciamo MotionBit, un concetto innovativo che, a differenza delle formulazioni precedenti, definisce l'unità più piccola nella segmentazione basata sul movimento attraverso l'equivalenza di twist spaziale cinematico, indipendente dalla semantica. In questo articolo, contribuiamo con (1) il concetto e la definizione di MotionBit, (2) un benchmark etichettato a mano, chiamato MoRiBo, per valutare la segmentazione di corpi rigidi in movimento attraverso video di manipolazione robotica e video umani in contesti naturali, e (3) un metodo di segmentazione MotionBits basato su grafi e privo di addestramento che supera i metodi di percezione incarnata allo stato dell'arte del 37,3\% in mIoU mediato a livello macro sul benchmark MoRiBo. Infine, dimostriamo l'efficacia della segmentazione MotionBits per compiti a valle di ragionamento incarnato e manipolazione, evidenziandone l'importanza come primitiva fondamentale per la comprensione delle interazioni fisiche.

dettagli

commento: 23 pages, 18 figures

citazione

@article{qianmotionbits,
  title = {MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies},
  author = {Qian, Howard H. and Ren, Kejia and Xiang, Yu and Ordonez, Vicente and Hang, Kaiyu},
  journal = {arXiv preprint arXiv:2603.06846},
  url = {https://arxiv.org/abs/2603.06846},
}

domande, principali contributi e limiti di questo articolo generati automaticamente

Domande a cui questo articolo aiuta a rispondere

Che cos'è un MotionBit e come viene definito? Un MotionBit è l'unità più piccola nella segmentazione basata sul movimento, formalmente definita attraverso l'equivalenza di twist spaziale cinematico: i pixel o i punti appartengono allo stesso MotionBit se e solo se condividono una traiettoria di twist spaziale identica e non nulla per tutta una finestra temporale di osservazione, indipendentemente dal loro aspetto visivo o dalla loro classe semantica.
Che cos'è MoRiBo e cosa contiene? MoRiBo è il primo benchmark etichettato a mano per valutare la segmentazione di corpi rigidi in movimento in video RGB del mondo reale; contiene 270 video di manipolazione robotica provenienti da BridgeData V2 e 79 video umani in contesti naturali da SA-V, con maschere di segmentazione del fotogramma finale verificate manualmente per ciascuna parte rigida che ha mostrato un movimento indipendente.
Come funziona il metodo proposto a grandi linee? Il metodo è privo di addestramento e basato su grafi: campiona una griglia uniforme di punti per fotogramma, stima i twist spaziali locali utilizzando il flusso ottico e un RANSAC modificato con stima di Kabsch, costruisce un grafo di similarità dei twist spaziali con pesi degli archi basati sulla distanza di Mahalanobis, quindi applica una soft label propagation seguita da un hard Markov clustering, e infine utilizza SAM 2 per rifinire i contorni dei segmenti.
Di quanto il metodo proposto supera le baseline su MoRiBo? Il metodo supera tutte le baseline valutate di una media di 37,3 punti percentuali in mIoU mediato a livello macro su entrambi i track del benchmark, e supera le due baseline più forti, Qwen2.5-VL e Segment Any Motion in Videos, di 32,1 punti percentuali in mIoU.
Quali compiti a valle traggono beneficio dalla segmentazione MotionBits? Vengono dimostrati due compiti a valle: il visual question answering visivamente ancorato, dove sovrapporre le maschere MotionBits come prompt set-of-mark migliora sostanzialmente la capacità di un modello vision-language di identificare quali oggetti si sono mossi, e l'impilamento robotico di torri, dove il robot ha ottenuto 6 impilamenti riusciti su 10 utilizzando le maschere MotionBits rispetto a zero successi per SAM, SAMIV e QwenVL.

Principali contributi

L'articolo introduce il concetto di MotionBit, una primitiva di segmentazione matematicamente fondata e indipendente dalla semantica, definita attraverso l'equivalenza di twist spaziale cinematico derivata dalla cinematica dei corpi rigidi in SE(3).
L'articolo contribuisce con MoRiBo, il primo benchmark per la segmentazione di corpi rigidi in movimento nel mondo reale, con 349 video etichettati a mano che spaziano dai domini della manipolazione robotica a quelli dell'interazione umana in contesti naturali.
L'articolo presenta una pipeline di segmentazione basata su grafi e priva di addestramento che opera online su video RGB e raggiunge il 52,6 percento di mIoU sul track di manipolazione robotica e il 46,7 percento di mIoU sul track umano in contesti naturali, superando tutte le baseline valutate.
Un'analisi di sensibilità Monte Carlo con 100.000 prove giustifica quantitativamente la riduzione del problema completo SE(3) a un modello di movimento SE(2), mostrando errori cinematici medi inferiori all'1 percento sia in condizioni di spazio di lavoro robotico sia in contesti naturali.
Esperimenti robotici nel mondo reale con oggetti a blocchi incollati compositi dimostrano che le maschere MotionBits consentono di impilare con successo torri con un tasso di successo del 60 percento, fornendo prove concrete del fatto che la segmentazione a livello di movimento si traduce in indizi di manipolazione concretamente utilizzabili.

Limiti e avvertenze

Il metodo attuale è valutato principalmente sotto l'ipotesi di telecamera statica, il che mantiene l'analisi del movimento pulita e ben delimitata; estendere la stessa formulazione di MotionBit con una compensazione completa SE(3) del movimento proprio della telecamera è un naturale passo successivo per contesti con telecamere altamente mobili.
MoRiBo fornisce ground truth etichettato a mano sul fotogramma finale di ciascun video, coerentemente con la principale metrica di segmentazione dell'articolo; benchmark futuri con annotazioni temporali dense potrebbero mostrare ulteriormente con quanta coerenza i MotionBits traccino le parti rigide lungo un'intera sequenza.
La pipeline a grafi implementata utilizza un'approssimazione SE(2) anche se la definizione di MotionBit è radicata nel movimento completo SE(3) dei corpi rigidi; l'ampio studio di sensibilità Monte Carlo dell'articolo riporta un errore cinematico medio inferiore all'1 percento nelle condizioni testate, rendendo questa una scelta ingegneristica pratica e ben giustificata.
La dimostrazione robotica utilizza un setup da tavolo controllato con blocchi colorati incollati e un solo braccio robotico, il che rende facilmente interpretabile l'evidenza di manipolazione a valle; test più ampi con oggetti, materiali e ambienti vari sarebbero una preziosa estensione di una prova di utilità già convincente.
Diverse baseline non sono state costruite specificamente per la segmentazione di corpi rigidi in movimento, e le baseline VLM necessitano di un'ulteriore fase di segmentazione per produrre le maschere; il confronto mostra comunque in modo utile che i sistemi basati sull'aspetto e sul linguaggio perdono la struttura a livello di movimento che il metodo proposto cattura direttamente.

Come interpretare questo risultato

Questo articolo è meglio interpretato come un solido contributo fondazionale: dà alla segmentazione video dei corpi rigidi una chiara definizione fisica, la sostiene con un nuovo benchmark e ampi guadagni empirici, e mostra che le maschere a livello di movimento possono migliorare direttamente la manipolazione robotica, pur lasciando opportunità ben delimitate per un'implementazione più ampia nel mondo reale.