Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning
publication

Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla, Fuwen Tan, Yanjun Qi, Vicente Ordonez.
The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021. February 2021
实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气,面向普通读者撰写。

弗吉尼亚大学的研究人员找到了一种方法,为一项名为伪标签的数十年历史的机器学习技术重新注入活力——这项技术此前在很大程度上已被较新的方法所取代。半监督学习的核心挑战在于,如何充分利用只有一小部分训练数据带有人工标注、其余数据无标签的情形——这在计算机视觉中是一个常见且代价高昂的问题。团队的方法名为 Curriculum Labeling,其工作方式是:先在小规模带标签数据集上训练一个模型,然后分阶段逐步为无标签图像赋予预测标签,起初只采用模型最有把握的预测,并在连续轮次中缓慢纳入更难、更不确定的样本。两项具体的设计选择被证明至关重要:使用一个源自极值理论的阈值来确定在每个阶段纳入哪些无标签样本,而非依赖固定的手工调校阈值;以及在每个新的训练轮次之前彻底重置模型参数,而非简单地继续微调它——这一步骤防止模型随时间推移强化自身早期的错误。在标准图像分类基准上的测试中,该方法仅用 4000 张带标签图像就在 CIFAR-10 上达到 94.91% 的准确率,并仅用 10% 的带标签数据就在 ImageNet 上与领先的竞争方法持平。研究人员还表明,当无标签数据包含带标签集中不存在的类别图像时,该方法比大多数替代方案表现得更稳健——这是一种比学术评估中通常使用的干净划分更现实的情形。这项工作表明,自训练方法并非天生有缺陷,只是需要更细致的实现。

摘要

本文在半监督学习的背景下重新审视伪标签的思想,在这一背景下,学习算法可以访问少量带标签样本和大量无标签样本。伪标签的工作方式是:利用在带标签样本与任何先前已伪标记样本的组合上训练得到的模型,为无标签集中的样本赋予伪标签,并在自训练循环中迭代地重复这一过程。当前的方法似乎已放弃这一途径,转而青睐一致性正则化方法,后者在无标签样本上结合不同风格的自监督损失、并在带标签样本上结合标准的监督损失来训练模型。我们通过实验证明,伪标签事实上能够与最先进方法相竞争,同时对无标签集中分布外的样本更具韧性。我们识别出使伪标签取得如此显著成果的两个关键因素:(1)应用课程学习原则;(2)通过在每个自训练循环之前重启模型参数来避免概念漂移。我们仅用 4000 个带标签样本就在 CIFAR-10 上获得了 94.91% 的准确率,并仅用 10% 的带标签样本就在 Imagenet-ILSVRC 上获得了 68.87% 的 top-1 准确率。代码已公开于 https://github.com/uvavision/Curriculum-Labeling

详情

备注
In the 35th AAAI Conference on Artificial Intelligence. AAAI 2021

引用

@inproceedings{cascantebonilla2021curriculum,
  title = {Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning},
  author = {Cascante-Bonilla, Paola and Tan, Fuwen and Qi, Yanjun and Ordonez, Vicente},
  year = {2021},
  booktitle = {The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021},
  url = {https://arxiv.org/abs/2001.06001},
}