Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla; Fuwen Tan; Yanjun Qi; Vicente Ordonez

← quay lại danh sách công bố

publication

Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla, Fuwen Tan, Yanjun Qi, Vicente Ordonez.

The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021. February 2021

bài báo code pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại University of Virginia đã tìm ra cách thổi luồng sinh khí mới vào một kỹ thuật học máy đã nhiều thập kỷ tuổi tên là gán nhãn giả (pseudo-labeling), vốn phần lớn đã bị bỏ rơi để chuyển sang các cách tiếp cận mới hơn. Thách thức cốt lõi trong Semi-Supervised Learning là tận dụng tối đa những tình huống mà chỉ một phần nhỏ dữ liệu huấn luyện mang nhãn do con người gán, trong khi phần còn lại không được gán nhãn — một vấn đề phổ biến và tốn kém trong thị giác máy tính. Phương pháp của nhóm, gọi là Curriculum Labeling, hoạt động bằng cách trước tiên huấn luyện một mô hình trên tập dữ liệu nhỏ được gán nhãn, rồi dần dần gán các nhãn được dự đoán cho các ảnh không được gán nhãn theo từng giai đoạn, bắt đầu chỉ với những dự đoán mà mô hình tự tin nhất và chậm rãi đưa vào những ví dụ khó hơn, kém chắc chắn hơn qua các vòng kế tiếp. Hai lựa chọn thiết kế cụ thể tỏ ra rất quan trọng: sử dụng một ngưỡng được rút ra từ Lý thuyết Giá trị Cực trị (Extreme Value Theory) để xác định mẫu không được gán nhãn nào sẽ đưa vào ở mỗi giai đoạn, thay vì dựa vào các ngưỡng cố định được tinh chỉnh thủ công, và đặt lại hoàn toàn các tham số của mô hình trước mỗi vòng huấn luyện mới thay vì chỉ tiếp tục tinh chỉnh nó — một bước ngăn mô hình củng cố chính những sai lầm ban đầu của nó theo thời gian. Khi thử nghiệm trên các benchmark phân loại ảnh tiêu chuẩn, cách tiếp cận đạt độ chính xác 94,91% trên CIFAR-10 chỉ sử dụng 4.000 ảnh được gán nhãn và sánh ngang hiệu năng của các phương pháp cạnh tranh hàng đầu trên ImageNet chỉ sử dụng 10% dữ liệu được gán nhãn. Các nhà nghiên cứu cũng cho thấy phương pháp này chống chịu tốt hơn hầu hết các lựa chọn thay thế khi dữ liệu không được gán nhãn chứa các ảnh từ các danh mục không có trong tập được gán nhãn, một kịch bản thực tế hơn so với các phần chia sạch sẽ thường được dùng trong các đánh giá học thuật. Công trình này gợi ý rằng các cách tiếp cận tự huấn luyện vốn không hề có khiếm khuyết cố hữu, mà chỉ đơn giản là cần được triển khai cẩn thận hơn.

tóm tắt

Trong bài báo này, chúng tôi xem xét lại ý tưởng gán nhãn giả (pseudo-labeling) trong bối cảnh Semi-Supervised Learning, nơi một thuật toán học có quyền truy cập một tập nhỏ các mẫu được gán nhãn và một tập lớn các mẫu không được gán nhãn. Gán nhãn giả hoạt động bằng cách áp dụng các nhãn giả cho các mẫu trong tập không được gán nhãn, sử dụng một mô hình được huấn luyện trên tổ hợp của các mẫu được gán nhãn và bất kỳ mẫu nào đã được gán nhãn giả trước đó, và lặp lại quá trình này một cách lặp đi lặp lại trong một chu trình tự huấn luyện (self-training). Các phương pháp hiện tại dường như đã từ bỏ cách tiếp cận này để chuyển sang các phương pháp chính quy hóa nhất quán (consistency regularization), vốn huấn luyện các mô hình dưới một tổ hợp các kiểu mất mát tự giám sát khác nhau trên các mẫu không được gán nhãn và các mất mát có giám sát tiêu chuẩn trên các mẫu được gán nhãn. Chúng tôi chứng minh bằng thực nghiệm rằng gán nhãn giả thực ra có thể cạnh tranh với mức tốt nhất hiện nay, trong khi lại có khả năng chống chịu tốt hơn với các mẫu nằm ngoài phân phối trong tập không được gán nhãn. Chúng tôi xác định hai yếu tố then chốt cho phép gán nhãn giả đạt được những kết quả đáng chú ý như vậy: (1) áp dụng các nguyên lý Curriculum Learning và (2) tránh trôi dạt khái niệm (concept drift) bằng cách khởi động lại các tham số mô hình trước mỗi chu trình tự huấn luyện. Chúng tôi đạt độ chính xác 94,91% trên CIFAR-10 chỉ sử dụng 4.000 mẫu được gán nhãn, và độ chính xác top-1 68,87% trên Imagenet-ILSVRC chỉ sử dụng 10% các mẫu được gán nhãn. Mã nguồn có tại https://github.com/uvavision/Curriculum-Labeling

chi tiết

ghi chú: In the 35th AAAI Conference on Artificial Intelligence. AAAI 2021

trích dẫn

@inproceedings{cascantebonilla2021curriculum,
  title = {Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning},
  author = {Cascante-Bonilla, Paola and Tan, Fuwen and Qi, Yanjun and Ordonez, Vicente},
  year = {2021},
  booktitle = {The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021},
  url = {https://arxiv.org/abs/2001.06001},
}