プレスリリース要約
バージニア大学とGoogleの研究者らは、当該タスクに何の関係も持たないはずの入力テキストの属性を操作することで、敵対的テキスト事例(AIの言語モデルをだまして誤った予測をさせるように設計された、わずかに改変された文)を生成するCAT-Genと呼ばれるシステムを開発した。彼らが取り組んだ中心的な問題は、NLPモデルのストレステストのための既存手法が、単語の置き換え(例えば「friends」を「dudes」に置き換えるなど)によってぎこちなく不自然に聞こえるテキストを生成するか、元の意味から大きく逸脱して現実的なテストケースとして無意味になってしまう文を生成する傾向があるという点である。CAT-Genは異なるアプローチをとる。すなわち、同義語の近さに基づいて個々の単語を置き換えるのではなく、エンコーダ・デコーダ型のニューラルネットワークを用いて、分類タスク(この場合は感情)に無関係であることが分かっている制御された属性(例えばAmazonレビューの商品カテゴリを「ゲーム」から「キッチン」に変えるなど)を変化させながら文を書き換える。このシステムは、可能な属性値を探索し、対象モデルに最も効果的に誤りを犯させる書き換えを見つけ出す。Amazonの商品レビューでのテストでは、CAT-GenはTextFoolerやNL-advといった主要な代替手法によって生成されたものよりも、測定可能なほど流暢で多様な敵対的事例を生成し、パープレキシティと元のテキストとのBLEU-4の重複の両方で低いスコアを記録した。決定的に重要なことに、生成された攻撃はモデルが振り払うのもより困難であることが判明した。感情分類器をCAT-Genの事例で再訓練した際、効果を失った攻撃は約半数にとどまり、競合手法の80パーセント超と比べて少なく、これらの事例が容易にパッチ可能な表面的な癖ではなく、モデルのより根本的な弱点を捉えていることを示唆している。
要旨
NLPモデルは頑健性の問題を抱えていることが示されている。すなわち、入力にわずかな摂動を加えるだけでモデルの予測が容易に変化しうる。本研究では、入力テキストが与えられたときに、タスクラベルに対して不変であることが分かっている制御可能な属性を通じて敵対的テキストを生成する、Controlled Adversarial Text Generation(CAT-Gen)モデルを提示する。例えば、商品レビューに対する感情分類モデルを攻撃するために、レビューの感情を変えることのない制御可能な属性として商品カテゴリを利用できる。実世界のNLPデータセットでの実験により、本手法が既存の多くの敵対的テキスト生成アプローチと比較して、より多様で流暢な敵対的テキストを生成できることを実証する。さらに、生成した敵対的事例を用いて敵対的訓練を通じてモデルを改善し、生成した攻撃がモデルの再訓練や異なるモデルアーキテクチャに対してより頑健であることを示す。
詳細
引用
@inproceedings{wang2020cat,
title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
year = {2020},
booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
url = {https://arxiv.org/abs/2010.02338/},
}