On the Transferability of Visual Features in Generalized Zero-Shot Learning
Краткое изложение пресс-релиза
Исследователи из Rice University, MIT-IBM Watson AI Lab, Georgia Tech и University of Virginia систематически рассмотрели вопрос, который область Generalized Zero-Shot Learning (GZSL) в основном игнорировала: имеет ли значение, какой экстрактор визуальных признаков вы используете? GZSL — это задача обучения классификатора изображений, способного распознавать как знакомые категории, так и совершенно новые, которые он никогда не видел, опираясь на описания атрибутов как на мост. Большинство прежних работ в этой области просто подставляли признаки из сети ResNet101, обученной на ImageNet, и шли дальше. Команда же провела крупномасштабный эксперимент, подставляя широкий спектр современных экстракторов признаков — включая свёрточные сети, Vision Transformers и MLP-Mixers, обученные с целями с учителем, self-supervised и контрастными, — на трёх стандартных эталонных наборах данных. Они обнаружили, что выбор экстрактора признаков имеет немалое значение. Модели, обученные с помощью DINO — self-supervised метода, сочетающего Contrastive Learning с самодистилляцией, — давали представления признаков, повышавшие производительность на целых 15 процентных пунктов по сравнению со стандартными моделями с учителем на детализированных наборах данных. Вопреки интуиции, обучение на более крупных наборах данных вроде ImageNet-21K не давало надёжного улучшения результатов. Они также протестировали CLIP — крупную мультимодальную модель, обученную на 400 миллионах пар изображение-текст, — и обнаружили, что хотя CLIP силён «из коробки», сочетание его визуальных признаков с генеративными методами GZSL всё же повышает производительность на детализированных задачах, что говорит о том, что архитектурные достижения GZSL ещё не устарели. Работа актуальна, поскольку даёт практикам конкретные ориентиры по выбору признаков и ставит под сомнение давнюю опору области на единственный backbone.
аннотация
Generalized Zero-Shot Learning (GZSL) ставит целью обучить классификатор, способный обобщаться на невиданные классы, используя набор атрибутов в качестве вспомогательной информации и визуальные признаки, извлечённые из предобученной свёрточной нейронной сети. Хотя недавние методы GZSL исследовали различные приёмы использования возможностей этих признаков, наблюдался обширный рост методов обучения представлений, которые остаются недостаточно изученными. В этой работе мы исследуем полезность различных методов GZSL при использовании разных экстракторов признаков и рассматриваем, как цели предобучения, наборы данных и устройство архитектуры этих моделей влияют на их способность к представлению признаков. Наши результаты показывают, что 1) методы, использующие генеративные компоненты для GZSL, дают больше преимуществ при использовании современных экстракторов признаков; 2) экстракторы признаков, предобученные с использованием целей Self-Supervised Learning и дистилляции знаний, обеспечивают лучшие представления признаков, повышая производительность до 15% при использовании с современными методами GZSL; 3) отдельные экстракторы признаков, предобученные на более крупных наборах данных, не обязательно повышают производительность методов GZSL. Кроме того, мы исследуем, как методы GZSL проявляют себя в сравнении с CLIP — более новой мультимодальной предобученной моделью с сильной производительностью в режиме zero-shot. Мы обнаружили, что задачи GZSL по-прежнему выигрывают от генеративных методов GZSL в сочетании с предобучением CLIP интернет-масштаба, достигая результатов современного уровня на детализированных наборах данных. Мы публикуем модульный фреймворк для анализа вопросов обучения представлений в GZSL здесь: https://github.com/uvavision/TV-GZSL
цитирование
@article{cascantebonilla2022transferability,
title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
year = {2022},
journal = {arXiv preprint arXiv:2211.12494},
url = {https://arxiv.org/abs/2211.12494},
}