On the Transferability of Visual Features in Generalized Zero-Shot Learning
publication

On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla, Leonid Karlinsky, James Seale Smith, Yanjun Qi, Vicente Ordonez.
arXiv:2211.12494 November 2022.
Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'Université Rice, du MIT-IBM Watson AI Lab, de Georgia Tech et de l'Université de Virginie se sont penchés de manière systématique sur une question que le domaine de l'Apprentissage Zero-Shot Généralisé (GZSL) avait largement ignorée : le choix de l'extracteur de caractéristiques visuelles a-t-il une importance ? Le GZSL consiste à entraîner un classifieur d'images capable de reconnaître à la fois des catégories familières et des catégories entièrement nouvelles qu'il n'a jamais vues, en s'appuyant sur des descriptions d'attributs comme passerelle. La plupart des travaux antérieurs dans ce domaine s'étaient contentés d'utiliser les caractéristiques d'un réseau ResNet101 entraîné sur ImageNet, sans aller plus loin. L'équipe a au contraire mené une expérience à grande échelle en testant un large éventail d'extracteurs de caractéristiques modernes — incluant des réseaux convolutifs, des Vision Transformers et des MLP-Mixers entraînés avec des objectifs supervisés, auto-supervisés et contrastifs — sur trois jeux de données de référence standard. Ils ont constaté que le choix de l'extracteur de caractéristiques a une importance considérable. Les modèles entraînés avec DINO, une méthode auto-supervisée combinant apprentissage contrastif et auto-distillation, ont produit des représentations de caractéristiques qui amélioraient les performances de jusqu'à 15 points de pourcentage par rapport aux modèles supervisés standard sur les jeux de données à grain fin. De manière contre-intuitive, l'entraînement sur des jeux de données plus volumineux comme ImageNet-21K n'améliorait pas les résultats de façon fiable. Ils ont également testé CLIP, le grand modèle multimodal entraîné sur 400 millions de paires image-texte, et ont constaté que, bien que CLIP soit performant d'emblée, l'association de ses caractéristiques visuelles à des méthodes GZSL fondées sur le générateur améliore encore les performances sur les tâches à grain fin, ce qui suggère que les avancées architecturales du GZSL ne sont pas encore obsolètes. Ce travail est pertinent car il offre aux praticiens des conseils concrets sur la sélection des caractéristiques et remet en question la dépendance de longue date du domaine à un unique réseau dorsal.

résumé

L'Apprentissage Zero-Shot Généralisé (GZSL) vise à entraîner un classifieur capable de généraliser à des classes non vues, en utilisant un ensemble d'attributs comme information auxiliaire ainsi que les caractéristiques visuelles extraites d'un réseau de neurones convolutif pré-entraîné. Bien que les méthodes GZSL récentes aient exploré diverses techniques pour exploiter la capacité de ces caractéristiques, une vaste croissance des techniques d'apprentissage de représentations demeure sous-explorée. Dans ce travail, nous étudions l'utilité de différentes méthodes GZSL lorsqu'elles utilisent différents extracteurs de caractéristiques, et examinons comment les objectifs de pré-entraînement, les jeux de données et la conception architecturale de ces modèles affectent leur capacité de représentation des caractéristiques. Nos résultats indiquent que 1) les méthodes utilisant des composants génératifs pour le GZSL offrent davantage d'avantages lorsqu'elles utilisent des extracteurs de caractéristiques récents ; 2) les extracteurs de caractéristiques pré-entraînés à l'aide d'objectifs d'apprentissage auto-supervisé et de distillation de connaissances fournissent de meilleures représentations de caractéristiques, augmentant les performances jusqu'à 15 % lorsqu'ils sont utilisés avec des techniques GZSL récentes ; 3) certains extracteurs de caractéristiques pré-entraînés avec des jeux de données plus volumineux n'améliorent pas nécessairement les performances des méthodes GZSL. De plus, nous examinons comment les méthodes GZSL se comportent face à CLIP, un modèle multimodal pré-entraîné plus récent doté de fortes performances en zero-shot. Nous avons constaté que les tâches GZSL bénéficient toujours des méthodes GZSL fondées sur le générateur combinées au pré-entraînement à l'échelle d'Internet de CLIP pour atteindre des performances de pointe sur les jeux de données à grain fin. Nous publions ici un cadre modulaire pour analyser les problématiques d'apprentissage de représentations en GZSL : https://github.com/uvavision/TV-GZSL

citation

@article{cascantebonilla2022transferability,
  title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
  author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
  year = {2022},
  journal = {arXiv preprint arXiv:2211.12494},
  url = {https://arxiv.org/abs/2211.12494},
}