On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla; Leonid Karlinsky; James Seale Smith; Yanjun Qi; Vicente Ordonez

← quay lại danh sách công bố

publication

On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla, Leonid Karlinsky, James Seale Smith, Yanjun Qi, Vicente Ordonez.

arXiv:2211.12494 November 2022.

bài báo github pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại Rice University, MIT-IBM Watson AI Lab, Georgia Tech, và University of Virginia đã xem xét một cách có hệ thống một câu hỏi mà lĩnh vực Generalized Zero-Shot Learning (GZSL) phần lớn đã bỏ qua: việc bạn dùng bộ trích xuất đặc trưng thị giác nào có quan trọng không? GZSL là bài toán huấn luyện một bộ phân loại ảnh có thể nhận diện cả các danh mục quen thuộc lẫn các danh mục hoàn toàn mới mà nó chưa bao giờ thấy, dựa vào các mô tả thuộc tính như một cây cầu. Hầu hết các công trình trước đây trong lĩnh vực này chỉ đơn giản cắm vào các đặc trưng từ một mạng ResNet101 được huấn luyện trên ImageNet rồi tiếp tục. Thay vào đó, nhóm đã chạy một thí nghiệm quy mô lớn hoán đổi vào một loạt các bộ trích xuất đặc trưng hiện đại — bao gồm các mạng tích chập, Vision Transformers, và MLP-Mixers được huấn luyện với các mục tiêu có giám sát, tự giám sát, và tương phản — trên ba bộ dữ liệu benchmark tiêu chuẩn. Họ nhận thấy rằng việc chọn bộ trích xuất đặc trưng có ý nghĩa khá lớn. Các mô hình được huấn luyện bằng DINO, một phương pháp tự giám sát kết hợp Contrastive Learning với tự chưng cất, đã tạo ra các biểu diễn đặc trưng thúc đẩy hiệu năng lên tới 15 điểm phần trăm so với các mô hình có giám sát tiêu chuẩn trên các bộ dữ liệu chi tiết. Một cách phản trực giác, việc huấn luyện trên các bộ dữ liệu lớn hơn như ImageNet-21K không cải thiện kết quả một cách đáng tin cậy. Họ cũng kiểm tra CLIP, mô hình đa phương thức lớn được huấn luyện trên 400 triệu cặp ảnh-văn bản, và nhận thấy rằng mặc dù CLIP mạnh ngay từ đầu, việc ghép các đặc trưng thị giác của nó với các phương pháp GZSL dựa trên sinh vẫn đẩy hiệu năng cao hơn trên các tác vụ chi tiết, gợi ý rằng những tiến bộ về kiến trúc của GZSL vẫn chưa lỗi thời. Công trình có liên quan vì nó mang lại cho các nhà thực hành hướng dẫn cụ thể về việc chọn đặc trưng và thách thức sự phụ thuộc lâu nay của lĩnh vực vào một backbone duy nhất.

tóm tắt

Generalized Zero-Shot Learning (GZSL) nhằm huấn luyện một bộ phân loại có thể khái quát hóa sang các lớp chưa thấy, sử dụng một tập các thuộc tính làm thông tin phụ trợ, và các đặc trưng thị giác được trích xuất từ một mạng nơ-ron tích chập đã được tiền huấn luyện. Trong khi các phương pháp GZSL gần đây đã khám phá nhiều kỹ thuật khác nhau để tận dụng năng lực của các đặc trưng này, đã có một sự phát triển sâu rộng của các kỹ thuật học biểu diễn vẫn còn ít được khám phá. Trong công trình này, chúng tôi nghiên cứu tính hữu dụng của các phương pháp GZSL khác nhau khi sử dụng các bộ trích xuất đặc trưng khác nhau, và xem xét các mục tiêu tiền huấn luyện, các bộ dữ liệu, và thiết kế kiến trúc của những mô hình này ảnh hưởng như thế nào đến khả năng biểu diễn đặc trưng của chúng. Kết quả của chúng tôi cho thấy rằng 1) các phương pháp sử dụng các thành phần sinh cho GZSL mang lại nhiều lợi thế hơn khi sử dụng các bộ trích xuất đặc trưng gần đây; 2) các bộ trích xuất đặc trưng được tiền huấn luyện bằng các mục tiêu Self-Supervised Learning và knowledge distillation cung cấp các biểu diễn đặc trưng tốt hơn, tăng hiệu năng lên đến 15% khi được dùng với các kỹ thuật GZSL gần đây; 3) các bộ trích xuất đặc trưng cụ thể được tiền huấn luyện với các bộ dữ liệu lớn hơn không nhất thiết thúc đẩy hiệu năng của các phương pháp GZSL. Ngoài ra, chúng tôi nghiên cứu các phương pháp GZSL đối chọi với CLIP như thế nào, một mô hình đa phương thức được tiền huấn luyện gần đây hơn với hiệu năng zero-shot mạnh mẽ. Chúng tôi nhận thấy rằng các tác vụ GZSL vẫn hưởng lợi từ các phương pháp GZSL dựa trên sinh cùng với việc tiền huấn luyện ở quy mô internet của CLIP để đạt hiệu năng tốt nhất hiện nay trên các bộ dữ liệu chi tiết. Chúng tôi phát hành một khung mô-đun để phân tích các vấn đề học biểu diễn trong GZSL tại đây: https://github.com/uvavision/TV-GZSL

trích dẫn

@article{cascantebonilla2022transferability,
  title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
  author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
  year = {2022},
  journal = {arXiv preprint arXiv:2211.12494},
  url = {https://arxiv.org/abs/2211.12494},
}