ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders

Jefferson Hernandez; Ruben Villegas; Vicente Ordonez

← 논문 목록으로 돌아가기

publication

ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.

European Conference on Computer Vision ECCV 2024. Milan, Italy.

논문 project page github pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교와 Google DeepMind의 연구자들은 단일 AI 모델이 라벨링된 데이터 없이 정지 이미지와 비디오를 모두 이해하도록 학습시키는 ViC-MAE라는 자기 지도 시각 학습 시스템을 개발했다. 이들이 다룬 핵심 과제는, 기존 모델들이 두 양상 중 하나에는 능하지만 둘 다에는 능하지 못한 경향이 있다는 것 — 특히 비디오로 학습된 모델은 역사적으로 이미지 작업에서 좋은 성능을 내라고 요구받을 때 어려움을 겪어 왔다는 점이다. 이들의 접근법은 두 가지 기존 기법을 결합한다. 하나는 모델이 이미지의 무작위로 가려진 패치를 재구성하도록 학습시키는 마스킹 오토인코더이고, 다른 하나는 같은 장면의 서로 다른 두 시점이 유사한 표현을 만들어내야 함을 인식하도록 모델을 학습시키는 대조 학습이다. 새로운 점은, 프레임을 반복해 이미지를 가짜 비디오로 인위적으로 변환하는 — 흔한 임시방편 — 대신, ViC-MAE가 실제 비디오 안에서 약 1초 정도 떨어져 샘플링된 프레임을 같은 장면의 자연스러운 "증강된 시점"으로 취급하여, 그 시간적 변화를 대조 학습 목적함수에 입력하면서도 마스킹 손실로 개별 프레임을 여전히 재구성한다는 것이다. 연구팀은 또한 단일 분류 토큰에 의존하기보다 지역 패치 특징을 전역 표현으로 풀링하는 것이 학습 중 모델이 붕괴하는 것을 방지하는 데 도움이 됨을 발견했다. 표준 벤치마크에서 시험했을 때, ViC-MAE의 ViT-Large 버전은 ImageNet에서 87.1%의 top-1 정확도와 까다로운 Something-Something-v2 비디오 벤치마크에서 75.9%에 도달하여, ImageNet에서 비교 대상인 자기 지도 방법 OmniMAE를 약 2.4퍼센트 포인트 능가하는 동시에 비디오 작업에서도 그것을 이겼다. 이 결과는 비디오 데이터가 신중하게 사용되면 비디오 성능을 희생하지 않고도 이미지 이해를 유의미하게 강화할 수 있음을 시사한다.

초록

우리는 Masked AutoEncoder(MAE)와 대조 학습을 모두 결합한 모델인 ViC-MAE를 제안한다. ViC-MAE는 MAE 재구성 손실 하에서 학습된 지역 표현을 풀링하여 얻은 전역 특징을 사용하여 학습되며, 이 표현을 이미지와 비디오 프레임에 걸친 대조 목적함수 하에서 활용한다. 우리는 ViC-MAE 하에서 학습된 시각 표현이 비디오 및 이미지 분류 작업 모두에 잘 일반화됨을 보인다. 특히, ViC-MAE는 동일한 데이터로 학습했을 때 86%의 top-1 정확도(+1.3% 절대 향상)를, 추가 데이터로 학습했을 때 87.1%의 top-1 정확도(+2.4% 절대 향상)를 달성하여, 최근 제안된 OmniMAE 대비 Imagenet-1k에서 비디오에서 이미지로의 최첨단 전이 학습 성능을 얻는다. 동시에 ViC-MAE는 까다로운 Something something-v2 비디오 벤치마크에서 75.9%의 top-1 정확도를 얻어 비디오 벤치마크에서 대부분의 다른 방법을 능가한다. 다양한 데이터셋의 조합에서 나온 비디오와 이미지로 학습할 때, 우리의 방법은 비디오 분류와 이미지 분류 벤치마크 사이에서 균형 잡힌 전이 학습 성능을 유지하며, 최고의 지도 학습 방법에 근소한 차이로 2위에 오른다.

세부 정보

비고: Published at ECCV 2024

인용

@inproceedings{hernandez2024vic,
  title = {ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  booktitle = {European Conference on Computer Vision ECCV 2024},
  url = {https://arxiv.org/abs/2303.12001},
}

이 논문의 자동 생성된 질문, 주요 기여 및 한계

이 논문이 답하는 데 도움이 되는 질문

ViC-MAE란 무엇인가? ViC-MAE는 마스킹 오토인코딩과 대조 학습을 결합하여 하나의 백본이 이미지와 비디오 모두에 유용한 특징을 학습할 수 있게 하는 자기 지도 시각 표현 학습 방법이다.
ViC-MAE는 이전의 이미지-비디오 사전학습 방법과 비디오를 어떻게 다르게 사용하는가? 이미지를 프레임을 반복한 비디오로 변환하는 대신, ViC-MAE는 실제 비디오의 인접한 프레임을 자연스러운 시간적 증강으로 취급하고 그들의 풀링된 표현을 정렬한다.
마스킹 이미지 모델링과 대조 학습을 왜 결합하는가? 재구성 목적함수는 강한 지역 패치 특징을 장려하는 한편, 대조 목적함수는 증강된 이미지와 시간적으로 이동된 비디오 프레임 전반에 걸친 전역 불변성을 장려한다.
이 방법에서 풀링은 어떤 역할을 하는가? ViC-MAE는 대조 분기 이전에 지역 ViT 특징을 전역 표현으로 풀링하는데, 논문은 이것이 안정적인 학습에 중요하며 분류 토큰에만 의존하는 것을 피한다고 보여준다.
ViC-MAE가 균형 잡힌 이미지 및 비디오 표현을 학습한다는 증거는 무엇인가? 논문은 ImageNet, Kinetics-400, Places365, Something-Something-v2, 여러 다운스트림 이미지 분류 데이터셋, COCO 탐지 및 분할로의 강력한 전이를 보고한다.

주요 기여

이 논문은 마스킹 재구성과 대조 정렬의 결합을 사용하여 이미지와 비디오 모두로부터 학습하는 통합 자기 지도 프레임워크를 도입한다.
ViC-MAE는 비디오 프레임이 이미지 수준 표현 학습을 위한 효과적인 시간적 증강의 역할을 할 수 있어, 비디오 성능을 포기하지 않으면서 비디오에서 이미지로의 전이를 향상시킬 수 있음을 보여준다.
이 방법은 안정적인 대조 마스킹 오토인코더 학습을 위한 실용적 설계 선택으로 지역 MAE 특징에 대한 전역 풀링을 식별한다.
ViT-Large 백본으로 ViC-MAE는 87.1%의 ImageNet top-1 정확도와 75.9%의 Something-Something-v2 top-1 정확도에 도달하여, 보고된 설정에서 OmniMAE와 같은 비교 가능한 자기 지도 기준선을 능가한다.
이 논문은 이미지 분류, 비디오 행동 인식, 객체 탐지, 분할에 걸친 광범위한 실증적 검증을 제공하여, 단일 벤치마크를 넘어 기여를 유용하게 만든다.

한계 및 유의 사항

가장 강력한 결과는 대형 ViT 백본과 다중 데이터셋 사전학습을 사용하는데, 이는 현대의 파운데이션 방식 시각 표현 학습에서 전형적이며 방법의 확장 거동을 보여주는 데 도움이 된다.
ViC-MAE는 가능한 모든 다운스트림 비디오 또는 이미지 작업이 아니라 주로 전이 및 미세조정 벤치마크를 통해 평가되어, 추가적인 도메인을 유망한 후속 평가로 남겨둔다.
이 접근법은 재구성과 대조 목적함수 사이의 신중한 균형에 의존하지만, 논문은 풀링, 프레임 간격, 증강, 데이터 혼합에 대한 절제 실험을 포함하여 설계 선택을 명확하게 만든다.
이 방법은 통합 이미지-비디오 자기 지도 학습을 개선하는 한편, 작업별 지도 학습 모델은 여전히 일부 개별 벤치마크에서 경쟁력이 있을 수 있다. 이는 ViC-MAE를 좁은 전문가가 아니라 강력한 일반 표현 학습기로 자리매김한다.
이 논문은 시각만을 사용하는 사전학습에 초점을 맞추므로, 텍스트, 오디오, 또는 더 넓은 멀티모달 정렬로의 확장은 동일한 프레임워크 위에 구축되는 자연스러운 기회로 남는다.

이 결과를 읽는 방법

이 논문은 자기 지도 이미지-비디오 표현 학습의 강력하고 실용적인 진전으로 읽는 것이 가장 좋다. ViC-MAE는 비디오 데이터가 뛰어난 비디오 성능을 보존하면서도 이미지 표현을 향상시킬 수 있음을 입증하며, 마스킹 오토인코딩, 시간적 대조 학습, 풀링된 지역 특징의 깔끔한 결합으로 이를 해낸다.