On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla; Leonid Karlinsky; James Seale Smith; Yanjun Qi; Vicente Ordonez

← voltar às publicações

publication

On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla, Leonid Karlinsky, James Seale Smith, Yanjun Qi, Vicente Ordonez.

arXiv:2211.12494 November 2022.

artigo github pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University, do MIT-IBM Watson AI Lab, da Georgia Tech e da University of Virginia analisaram de forma sistemática uma questão que o campo do Aprendizado Zero-Shot Generalizado (GZSL) havia em grande parte ignorado: importa qual extrator de características visuais você usa? O GZSL é o problema de treinar um classificador de imagens capaz de reconhecer tanto categorias familiares quanto categorias inteiramente novas que nunca viu, apoiando-se em descrições de atributos como ponte. A maior parte dos trabalhos anteriores no campo simplesmente utilizava características de uma rede ResNet101 treinada no ImageNet e seguia em frente. A equipe, em vez disso, conduziu um experimento de larga escala substituindo por uma ampla gama de extratores de características modernos — incluindo redes convolucionais, Vision Transformers e MLP-Mixers treinados com objetivos supervisionados, autossupervisionados e contrastivos — em três conjuntos de dados de benchmark padrão. Eles descobriram que a escolha do extrator de características importa bastante. Modelos treinados com DINO, um método autossupervisionado que combina aprendizado contrastivo com autodestilação, produziram representações de características que aumentaram o desempenho em até 15 pontos percentuais em comparação com modelos supervisionados padrão em conjuntos de dados de granularidade fina. De forma contraintuitiva, treinar em conjuntos de dados maiores, como o ImageNet-21K, não melhorou os resultados de forma confiável. Eles também testaram o CLIP, o grande modelo multimodal treinado com 400 milhões de pares imagem-texto, e descobriram que, embora o CLIP seja forte logo de início, combinar suas características visuais com métodos de GZSL baseados em modelos generativos ainda eleva o desempenho em tarefas de granularidade fina, sugerindo que os avanços arquiteturais do GZSL ainda não estão obsoletos. O trabalho é relevante porque oferece aos profissionais orientações concretas sobre a seleção de características e questiona a longa dependência do campo de um único backbone.

resumo

O Aprendizado Zero-Shot Generalizado (GZSL) tem como objetivo treinar um classificador capaz de generalizar para classes não vistas, usando um conjunto de atributos como informação auxiliar e as características visuais extraídas de uma rede neural convolucional pré-treinada. Embora métodos recentes de GZSL tenham explorado diversas técnicas para aproveitar a capacidade dessas características, houve um amplo crescimento de técnicas de aprendizado de representações que permanecem pouco exploradas. Neste trabalho, investigamos a utilidade de diferentes métodos de GZSL ao usar diferentes extratores de características e examinamos como os objetivos de pré-treinamento, os conjuntos de dados e o design da arquitetura desses modelos afetam sua capacidade de representação de características. Nossos resultados indicam que 1) métodos que usam componentes generativos para GZSL oferecem mais vantagens ao usar extratores de características recentes; 2) extratores de características pré-treinados usando objetivos de aprendizado autossupervisionado e destilação de conhecimento fornecem melhores representações de características, aumentando o desempenho em até 15% quando usados com técnicas recentes de GZSL; 3) extratores de características específicos pré-treinados com conjuntos de dados maiores não necessariamente melhoram o desempenho dos métodos de GZSL. Além disso, investigamos como os métodos de GZSL se comparam ao CLIP, um modelo multimodal pré-treinado mais recente com forte desempenho zero-shot. Constatamos que as tarefas de GZSL ainda se beneficiam de métodos de GZSL baseados em modelos generativos juntamente com o pré-treinamento em escala de internet do CLIP para alcançar desempenho de estado da arte em conjuntos de dados de granularidade fina. Disponibilizamos um framework modular para analisar questões de aprendizado de representações em GZSL aqui: https://github.com/uvavision/TV-GZSL

citação

@article{cascantebonilla2022transferability,
  title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
  author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
  year = {2022},
  journal = {arXiv preprint arXiv:2211.12494},
  url = {https://arxiv.org/abs/2211.12494},
}