プレスリリース要約
Rice University、MIT-IBM Watson AI Lab、Georgia Tech、University of Virginiaの研究者らは、汎化ゼロショット学習(GZSL)の分野がほとんど無視してきた問いを体系的に検討しました。それは、どの視覚特徴抽出器を使うかが重要なのか、という問いです。GZSLは、属性記述を橋渡しとして用いることで、馴染みのあるカテゴリと、これまで一度も見たことのないまったく新しいカテゴリの両方を認識できる画像分類器を学習する問題です。この分野の従来研究のほとんどは、ImageNetで学習したResNet101ネットワークの特徴を単に組み込んで先へ進むだけでした。研究チームは代わりに、3つの標準ベンチマークデータセットにわたって、教師あり、自己教師あり、対照的な目的で学習された畳み込みネットワーク、Vision Transformer、MLP-Mixerなど、幅広い現代的な特徴抽出器を入れ替える大規模な実験を行いました。彼らは、特徴抽出器の選択が非常に重要であることを発見しました。対照学習と自己蒸留を組み合わせた自己教師あり手法であるDINOを用いて学習されたモデルは、細粒度データセットにおいて標準的な教師ありモデルと比べて最大15パーセントポイントの性能向上をもたらす特徴表現を生み出しました。直感に反して、ImageNet-21Kのようなより大きなデータセットでの学習は、必ずしも結果を改善しませんでした。彼らはまた、4億の画像・テキストペアで学習された大規模マルチモーダルモデルであるCLIPもテストし、CLIPはそのままでも強力である一方、その視覚特徴を生成ベースのGZSL手法と組み合わせると細粒度タスクでさらに性能が高まることを発見しました。これは、GZSLのアーキテクチャ上の進歩がまだ時代遅れになっていないことを示唆しています。この研究は、特徴選択に関する具体的な指針を実務者に与え、この分野が長年にわたって単一のバックボーンに依存してきたことに疑問を投げかける点で意義があります。
要旨
汎化ゼロショット学習(Generalized Zero-Shot Learning、GZSL)は、補助情報としての一連の属性と、事前学習済みの畳み込みニューラルネットワークから抽出した視覚特徴を用いて、未知のクラスへ汎化できる分類器を学習することを目指します。近年のGZSL手法はこれらの特徴の能力を活用するさまざまな技術を探求してきましたが、十分に検討されていない表現学習技術が広範に増えてきています。本研究では、異なる特徴抽出器を用いた場合の各種GZSL手法の有用性を調査し、これらのモデルの事前学習目的、データセット、アーキテクチャ設計が特徴表現能力にどのように影響するかを検討します。我々の結果は次のことを示しています。1)GZSLに生成的コンポーネントを用いる手法は、最近の特徴抽出器を用いる場合により多くの利点をもたらす。2)自己教師あり学習目的と知識蒸留を用いて事前学習された特徴抽出器は、より優れた特徴表現を提供し、最近のGZSL技術と組み合わせて用いると最大15%の性能向上をもたらす。3)より大きなデータセットで事前学習された特定の特徴抽出器は、必ずしもGZSL手法の性能を高めるわけではない。さらに、我々は、強力なゼロショット性能を持つより新しいマルチモーダル事前学習モデルであるCLIPに対して、GZSL手法がどの程度の成績を収めるかを調査します。我々は、GZSLタスクが、細粒度データセットにおいて最先端の性能を達成するために、生成ベースのGZSL手法とCLIPのインターネット規模の事前学習の両方から依然として恩恵を受けることを発見しました。我々は、GZSLにおける表現学習の課題を分析するためのモジュール式フレームワークをこちらで公開しています:https://github.com/uvavision/TV-GZSL
引用
@article{cascantebonilla2022transferability,
title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
year = {2022},
journal = {arXiv preprint arXiv:2211.12494},
url = {https://arxiv.org/abs/2211.12494},
}