On the Transferability of Visual Features in Generalized Zero-Shot Learning
publication

On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla, Leonid Karlinsky, James Seale Smith, Yanjun Qi, Vicente Ordonez.
arXiv:2211.12494 November 2022.
实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气,面向普通读者撰写。

莱斯大学、MIT-IBM Watson AI Lab、Georgia Tech 和弗吉尼亚大学的研究人员系统地审视了广义零样本学习(GZSL)领域在很大程度上忽视的一个问题:你使用哪种视觉特征提取器重要吗?GZSL 是训练一个图像分类器以同时识别熟悉类别和它从未见过的全新类别的问题,它依赖属性描述作为桥梁。该领域以往的大多数工作只是简单地接入在 ImageNet 上训练的 ResNet101 网络的特征便就此罢手。团队转而开展了一项大规模实验,跨三个标准基准数据集换入了多种现代特征提取器——包括用监督、自监督和对比目标训练的卷积网络、Vision Transformer 和 MLP-Mixer。他们发现特征提取器的选择影响相当大。使用 DINO(一种将对比学习与自蒸馏相结合的自监督方法)训练的模型产生的特征表示,在细粒度数据集上相比标准监督模型将性能提升了多达 15 个百分点。与直觉相反,在 ImageNet-21K 等更大数据集上训练并不可靠地改善结果。他们还测试了 CLIP(在 4 亿图像-文本对上训练的大型多模态模型),发现虽然 CLIP 开箱即用表现强劲,但将其视觉特征与基于生成的 GZSL 方法配对在细粒度任务上仍能进一步提升性能,表明 GZSL 的架构进展尚未过时。这项工作的意义在于,它为从业者提供了关于特征选择的具体指引,并挑战了该领域长期以来对单一骨干网络的依赖。

摘要

广义零样本学习(GZSL)旨在训练一个能够泛化到未见类别的分类器,它使用一组属性作为辅助信息,并使用从预训练卷积神经网络中提取的视觉特征。尽管近期的 GZSL 方法探索了多种技术来利用这些特征的能力,但表示学习技术已大量涌现,而它们仍未被充分探索。在这项工作中,我们研究了不同 GZSL 方法在使用不同特征提取器时的效用,并考察了这些模型的预训练目标、数据集和架构设计如何影响其特征表示能力。我们的结果表明:1)对 GZSL 使用生成式组件的方法在采用近期特征提取器时提供更多优势;2)使用自监督学习目标和知识蒸馏预训练的特征提取器提供更好的特征表示,与近期 GZSL 技术配合使用时性能提升最高达 15%;3)用更大数据集预训练的特定特征提取器并不一定提升 GZSL 方法的性能。此外,我们研究了 GZSL 方法相对于 CLIP(一个更近期的、具有强大零样本性能的多模态预训练模型)的表现。我们发现,GZSL 任务仍受益于基于生成的 GZSL 方法与 CLIP 互联网规模预训练的结合,从而在细粒度数据集上达到最先进性能。我们在此发布了一个用于分析 GZSL 中表示学习问题的模块化框架:https://github.com/uvavision/TV-GZSL

引用

@article{cascantebonilla2022transferability,
  title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
  author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
  year = {2022},
  journal = {arXiv preprint arXiv:2211.12494},
  url = {https://arxiv.org/abs/2211.12494},
}