On the Transferability of Visual Features in Generalized Zero-Shot Learning
Sintesi del comunicato stampa
Ricercatori di Rice University, MIT-IBM Watson AI Lab, Georgia Tech e University of Virginia hanno esaminato in modo sistematico una domanda che il campo del Generalized Zero-Shot Learning (GZSL) aveva in gran parte ignorato: ha importanza quale estrattore di caratteristiche visive si utilizzi? Il GZSL è il problema di addestrare un classificatore di immagini in grado di riconoscere sia categorie familiari sia categorie completamente nuove mai viste prima, facendo affidamento sulle descrizioni degli attributi come ponte. Gran parte dei lavori precedenti nel campo si era limitata a inserire le caratteristiche di una rete ResNet101 addestrata su ImageNet, senza guardare oltre. Il team ha invece condotto un esperimento su larga scala sostituendo un'ampia gamma di moderni estrattori di caratteristiche — incluse reti convoluzionali, Vision Transformer e MLP-Mixer addestrati con obiettivi supervisionati, auto-supervisionati e contrastivi — su tre dataset di riferimento standard. Hanno scoperto che la scelta dell'estrattore di caratteristiche conta parecchio. I modelli addestrati con DINO, un metodo auto-supervisionato che combina l'apprendimento contrastivo con l'auto-distillazione, hanno prodotto rappresentazioni delle caratteristiche che hanno migliorato le prestazioni fino a 15 punti percentuali rispetto ai modelli supervisionati standard sui dataset a grana fine. In modo controintuitivo, l'addestramento su dataset più grandi come ImageNet-21K non ha migliorato in modo affidabile i risultati. Hanno inoltre testato CLIP, il grande modello multimodale addestrato su 400 milioni di coppie immagine-testo, e hanno scoperto che, sebbene CLIP sia efficace così com'è, abbinare le sue caratteristiche visive a metodi GZSL basati su componenti generative spinge comunque le prestazioni più in alto nei compiti a grana fine, suggerendo che i progressi architetturali del GZSL non sono ancora obsoleti. Il lavoro è rilevante perché offre ai professionisti indicazioni concrete sulla selezione delle caratteristiche e mette in discussione il lungo affidamento del campo su un'unica backbone.
abstract
Il Generalized Zero-Shot Learning (GZSL) mira ad addestrare un classificatore in grado di generalizzare a classi mai viste, utilizzando un insieme di attributi come informazione ausiliaria e le caratteristiche visive estratte da una rete neurale convoluzionale pre-addestrata. Sebbene i recenti metodi GZSL abbiano esplorato varie tecniche per sfruttare la capacità di queste caratteristiche, vi è stata un'ampia crescita di tecniche di apprendimento delle rappresentazioni che rimangono poco esplorate. In questo lavoro indaghiamo l'utilità di diversi metodi GZSL quando si usano differenti estrattori di caratteristiche ed esaminiamo come gli obiettivi di pre-addestramento, i dataset e la progettazione dell'architettura di questi modelli influiscano sulla loro capacità di rappresentare le caratteristiche. I nostri risultati indicano che 1) i metodi che utilizzano componenti generative per il GZSL offrono maggiori vantaggi quando si usano estrattori di caratteristiche recenti; 2) gli estrattori di caratteristiche pre-addestrati con obiettivi di apprendimento auto-supervisionato e knowledge distillation forniscono rappresentazioni migliori, aumentando le prestazioni fino al 15% quando usati con tecniche GZSL recenti; 3) determinati estrattori di caratteristiche pre-addestrati con dataset più grandi non necessariamente migliorano le prestazioni dei metodi GZSL. Inoltre, indaghiamo come i metodi GZSL si confrontino con CLIP, un modello multimodale pre-addestrato più recente con forti prestazioni zero-shot. Abbiamo riscontrato che i compiti GZSL traggono ancora beneficio dai metodi GZSL basati su componenti generative insieme al pre-addestramento su scala internet di CLIP per raggiungere prestazioni allo stato dell'arte su dataset a grana fine. Rilasciamo qui un framework modulare per analizzare le questioni dell'apprendimento delle rappresentazioni nel GZSL: https://github.com/uvavision/TV-GZSL
citazione
@article{cascantebonilla2022transferability,
title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
year = {2022},
journal = {arXiv preprint arXiv:2211.12494},
url = {https://arxiv.org/abs/2211.12494},
}