新闻稿摘要
来自弗吉尼亚大学和 Google 的研究人员开发了一个名为 CAT-Gen 的系统,它通过操纵输入文本中那些本不应与手头任务有关的属性,来生成对抗文本样本——即经过细微改动、旨在欺骗 AI 语言模型做出错误预测的句子。他们所应对的核心问题是:现有的 NLP 模型压力测试方法往往要么通过词语替换(例如把“friends”替换为“dudes”)生成生硬、不自然的文本,要么生成偏离原意太远以至于作为现实测试用例已变得无关紧要的句子。CAT-Gen 采取了不同的做法:它不是基于同义词相近度替换单个词语,而是使用一个编码器-解码器神经网络来重写句子,同时改变一个受控属性——例如把一条 Amazon 评论的产品类别从“games”改为“kitchen”——该属性已知与分类任务(此处即情感)无关。系统会在可能的属性取值范围内搜索,找出最能有效导致目标模型出错的那种重写。在对 Amazon 产品评论的测试中,CAT-Gen 生成的对抗样本在可量化的意义上比 TextFooler 和 NL-adv 等领先替代方法生成的样本更流畅、更多样,在困惑度(perplexity)和与原文的 BLEU-4 重叠度上都得分更低。至关重要的是,所生成的攻击也被证明更难被模型摆脱:当一个情感分类器在 CAT-Gen 样本上重训练后,只有约一半的攻击失去了有效性,而竞争方法则超过 80%,这表明这些样本捕捉到的是模型中更根本的弱点,而非易于修补的表层怪癖。
摘要
研究表明,NLP 模型存在鲁棒性问题,即在对输入施加微小扰动的情况下,模型的预测可以轻易被改变。在本工作中,我们提出了一个受控对抗文本生成(Controlled Adversarial Text Generation,CAT-Gen)模型,给定一段输入文本,它通过已知对任务标签保持不变的可控属性来生成对抗文本。例如,为了攻击一个对产品评论进行情感分类的模型,我们可以使用产品类别作为可控属性,而这不会改变评论的情感。在真实世界 NLP 数据集上的实验表明,与许多现有的对抗文本生成方法相比,我们的方法能够生成更多样、更流畅的对抗文本。我们进一步使用所生成的对抗样本通过对抗训练来改进模型,并证明我们生成的攻击对模型再训练和不同模型架构具有更强的鲁棒性。
详情
引用
@inproceedings{wang2020cat,
title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
year = {2020},
booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
url = {https://arxiv.org/abs/2010.02338/},
}