On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla; Leonid Karlinsky; James Seale Smith; Yanjun Qi; Vicente Ordonez

← 논문 목록으로 돌아가기

publication

On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla, Leonid Karlinsky, James Seale Smith, Yanjun Qi, Vicente Ordonez.

arXiv:2211.12494 November 2022.

논문 github pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교, MIT-IBM Watson AI Lab, Georgia Tech, 버지니아 대학교의 연구자들은 일반화 제로샷 학습(GZSL) 분야가 대체로 무시해 온 질문을 체계적으로 살펴보았다. 어떤 시각 특징 추출기를 사용하는지가 중요한가? GZSL은 익숙한 범주와 한 번도 본 적 없는 완전히 새로운 범주를 모두 인식할 수 있는 이미지 분류기를 학습하는 문제로, 속성 설명을 다리로 삼는다. 이 분야의 대부분의 이전 연구는 단순히 ImageNet으로 학습된 ResNet101 네트워크의 특징을 끼워 넣고 넘어갔다. 연구팀은 대신 합성곱 네트워크, Vision Transformer, 그리고 지도, 자기 지도, 대조 목적함수로 학습된 MLP-Mixer를 포함한 다양한 최신 특징 추출기를 세 개의 표준 벤치마크 데이터셋에 걸쳐 교체해 넣는 대규모 실험을 수행했다. 그들은 특징 추출기의 선택이 상당히 큰 영향을 미친다는 것을 발견했다. 대조 학습과 자기 증류를 결합한 자기 지도 방법인 DINO로 학습된 모델들은 세밀한 데이터셋에서 표준 지도 모델 대비 성능을 최대 15퍼센트 포인트까지 높이는 특징 표현을 만들어냈다. 직관과 달리, ImageNet-21K와 같은 더 큰 데이터셋으로 학습하는 것은 신뢰할 만하게 결과를 향상시키지 못했다. 그들은 또한 4억 개의 이미지-텍스트 쌍으로 학습된 대형 멀티모달 모델 CLIP을 시험하여, CLIP이 별다른 조정 없이도 강력한 한편 그 시각 특징을 생성 기반 GZSL 방법과 짝지으면 세밀한 작업에서 성능을 더 높일 수 있음을 발견했으며, 이는 GZSL의 아키텍처적 진전이 아직 쓸모없어진 것이 아님을 시사한다. 이 연구는 실무자에게 특징 선택에 대한 구체적인 지침을 제공하고 단일 백본에 대한 이 분야의 오랜 의존에 도전한다는 점에서 의의가 있다.

초록

일반화 제로샷 학습(GZSL)은 속성 집합을 보조 정보로, 그리고 사전학습된 합성곱 신경망에서 추출된 시각 특징을 사용하여, 보지 못한 클래스로 일반화할 수 있는 분류기를 학습하는 것을 목표로 한다. 최근의 GZSL 방법들은 이러한 특징의 역량을 활용하기 위한 다양한 기법을 탐구해 왔지만, 충분히 탐구되지 않은 채로 남아 있는 표현 학습 기법들이 광범위하게 성장해 왔다. 본 연구에서 우리는 서로 다른 특징 추출기를 사용할 때 다양한 GZSL 방법들의 유용성을 조사하고, 이러한 모델의 사전학습 목적함수, 데이터셋, 아키텍처 설계가 그들의 특징 표현 능력에 어떻게 영향을 미치는지 검토한다. 우리의 결과는 다음을 시사한다. 1) GZSL을 위해 생성 구성 요소를 사용하는 방법들은 최신 특징 추출기를 사용할 때 더 많은 이점을 제공한다; 2) 자기 지도 학습 목적함수와 지식 증류를 사용하여 사전학습된 특징 추출기는 더 나은 특징 표현을 제공하여, 최신 GZSL 기법과 함께 사용될 때 최대 15%까지 성능을 높인다; 3) 더 큰 데이터셋으로 사전학습된 특정 특징 추출기가 반드시 GZSL 방법의 성능을 향상시키지는 않는다. 추가로, 우리는 GZSL 방법들이 강력한 제로샷 성능을 가진 보다 최근의 멀티모달 사전학습 모델인 CLIP에 대해 어떻게 견디는지를 조사한다. 우리는 GZSL 작업이 여전히 생성 기반 GZSL 방법과 함께 CLIP의 인터넷 규모 사전학습으로부터 이점을 얻어 세밀한 데이터셋에서 최첨단 성능을 달성함을 발견했다. 우리는 GZSL에서의 표현 학습 문제를 분석하기 위한 모듈식 프레임워크를 여기에 공개한다: https://github.com/uvavision/TV-GZSL

인용

@article{cascantebonilla2022transferability,
  title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
  author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
  year = {2022},
  journal = {arXiv preprint arXiv:2211.12494},
  url = {https://arxiv.org/abs/2211.12494},
}