On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla; Leonid Karlinsky; James Seale Smith; Yanjun Qi; Vicente Ordonez

← volver a publicaciones

publication

On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla, Leonid Karlinsky, James Seale Smith, Yanjun Qi, Vicente Ordonez.

arXiv:2211.12494 November 2022.

artículo github pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice, MIT-IBM Watson AI Lab, Georgia Tech y la Universidad de Virginia han examinado de forma sistemática una pregunta que el campo del Aprendizaje Cero-Disparo Generalizado (GZSL) había ignorado en gran medida: ¿importa qué extractor de características visuales se utiliza? GZSL es el problema de entrenar un clasificador de imágenes que pueda reconocer tanto categorías familiares como otras completamente nuevas que nunca ha visto, apoyándose en descripciones de atributos como puente. La mayor parte del trabajo previo en el campo simplemente había introducido características de una red ResNet101 entrenada en ImageNet y había seguido adelante. El equipo, en cambio, realizó un experimento a gran escala intercambiando una amplia gama de extractores de características modernos —incluyendo redes convolucionales, Vision Transformers y MLP-Mixers entrenados con objetivos supervisados, autosupervisados y contrastivos— en tres conjuntos de datos de referencia estándar. Descubrieron que la elección del extractor de características importa bastante. Los modelos entrenados usando DINO, un método autosupervisado que combina el aprendizaje contrastivo con la autodestilación, produjeron representaciones de características que impulsaron el rendimiento hasta en 15 puntos porcentuales en comparación con los modelos supervisados estándar en conjuntos de datos de grano fino. Contraintuitivamente, entrenar con conjuntos de datos más grandes como ImageNet-21K no mejoró de forma fiable los resultados. También probaron CLIP, el gran modelo multimodal entrenado con 400 millones de pares imagen-texto, y descubrieron que, si bien CLIP es potente de fábrica, emparejar sus características visuales con métodos de GZSL basados en componentes generativos sigue elevando el rendimiento en tareas de grano fino, lo que sugiere que los avances arquitectónicos de GZSL aún no son obsoletos. El trabajo es relevante porque ofrece a los profesionales una orientación concreta sobre la selección de características y desafía la dependencia de larga data del campo en una única red troncal.

resumen

El Aprendizaje Cero-Disparo Generalizado (GZSL) tiene como objetivo entrenar un clasificador que pueda generalizar a clases no vistas, usando un conjunto de atributos como información auxiliar y las características visuales extraídas de una red neuronal convolucional preentrenada. Si bien los métodos recientes de GZSL han explorado diversas técnicas para aprovechar la capacidad de estas características, ha habido un crecimiento extenso de técnicas de aprendizaje de representaciones que permanecen poco exploradas. En este trabajo, investigamos la utilidad de diferentes métodos de GZSL al usar distintos extractores de características, y examinamos cómo los objetivos de preentrenamiento, los conjuntos de datos y el diseño de la arquitectura de estos modelos afectan su capacidad de representación de características. Nuestros resultados indican que 1) los métodos que usan componentes generativos para GZSL ofrecen más ventajas al usar extractores de características recientes; 2) los extractores de características preentrenados usando objetivos de aprendizaje autosupervisado y destilación de conocimiento proporcionan mejores representaciones de características, aumentando hasta un 15% el rendimiento cuando se usan con técnicas recientes de GZSL; 3) los extractores de características específicos preentrenados con conjuntos de datos más grandes no necesariamente impulsan el rendimiento de los métodos de GZSL. Además, investigamos cómo se comportan los métodos de GZSL frente a CLIP, un modelo preentrenado multimodal más reciente con un fuerte rendimiento de cero-disparo. Encontramos que las tareas de GZSL aún se benefician de los métodos de GZSL basados en componentes generativos junto con el preentrenamiento a escala de internet de CLIP para lograr un rendimiento de vanguardia en conjuntos de datos de grano fino. Publicamos un marco modular para analizar los problemas de aprendizaje de representaciones en GZSL aquí: https://github.com/uvavision/TV-GZSL

cita

@article{cascantebonilla2022transferability,
  title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
  author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
  year = {2022},
  journal = {arXiv preprint arXiv:2211.12494},
  url = {https://arxiv.org/abs/2211.12494},
}