CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation
publication

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi
Empirical Methods in Natural Language Processing. EMNLP 2020. short. Nov. 2020
Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forscher der University of Virginia und von Google haben ein System namens CAT-Gen entwickelt, das adversariale Textbeispiele erzeugt — leicht veränderte Sätze, die darauf ausgelegt sind, KI-Sprachmodelle zu falschen Vorhersagen zu verleiten —, indem es Attribute des Eingabetexts manipuliert, die für die anstehende Aufgabe keine Rolle spielen sollten. Das Kernproblem, das sie angingen, besteht darin, dass bestehende Methoden zum Belastungstest von NLP-Modellen dazu neigen, entweder durch Wortaustausch (etwa das Ersetzen von "friends" durch "dudes") gestelzte, unnatürlich klingende Texte oder Sätze zu erzeugen, die so weit von der ursprünglichen Bedeutung abweichen, dass sie als realistische Testfälle irrelevant werden. CAT-Gen verfolgt einen anderen Ansatz: Anstatt einzelne Wörter auf Grundlage von Synonymnähe auszutauschen, verwendet es ein Encoder-Decoder-Neuronales-Netz, um einen Satz neu zu schreiben und dabei ein gesteuertes Attribut zu verschieben — etwa das Ändern der Produktkategorie einer Amazon-Rezension von "games" zu "kitchen" —, von dem bekannt ist, dass es für die Klassifikationsaufgabe (in diesem Fall das Sentiment) irrelevant ist. Das System durchsucht mögliche Attributwerte, um dasjenige Umschreiben zu finden, das das Zielmodell am wirksamsten zu einem Fehler veranlasst. In Tests an Amazon-Produktrezensionen erzeugte CAT-Gen adversariale Beispiele, die messbar flüssiger und vielfältiger waren als die von führenden Alternativen wie TextFooler und NL-adv erzeugten, und schnitt sowohl bei der Perplexität als auch bei der BLEU-4-Überlappung mit dem Originaltext niedriger ab. Entscheidend ist, dass die erzeugten Angriffe für Modelle auch schwerer abzuschütteln waren: Als ein Sentiment-Klassifikator auf CAT-Gen-Beispielen neu trainiert wurde, verloren nur etwa die Hälfte der Angriffe ihre Wirksamkeit, verglichen mit über 80 Prozent bei konkurrierenden Methoden, was darauf hindeutet, dass die Beispiele eher grundlegendere Schwächen der Modelle erfassen als oberflächliche Eigenheiten, die sich leicht beheben lassen.

Zusammenfassung

Es zeigt sich, dass NLP-Modelle unter Robustheitsproblemen leiden, das heißt, die Vorhersage eines Modells kann durch kleine Störungen der Eingabe leicht verändert werden. In dieser Arbeit präsentieren wir ein Controlled Adversarial Text Generation (CAT-Gen)-Modell, das zu einem gegebenen Eingabetext über steuerbare Attribute, von denen bekannt ist, dass sie gegenüber Aufgaben-Labels invariant sind, adversariale Texte erzeugt. Um beispielsweise ein Modell zur Sentiment-Klassifikation über Produktrezensionen anzugreifen, können wir die Produktkategorien als steuerbares Attribut verwenden, das das Sentiment der Rezensionen nicht verändern würde. Experimente auf realen NLP-Datensätzen zeigen, dass unsere Methode im Vergleich zu vielen bestehenden Ansätzen zur Erzeugung adversarialer Texte vielfältigere und flüssigere adversariale Texte erzeugen kann. Wir verwenden unsere erzeugten adversarialen Beispiele zudem, um Modelle durch adversariales Training zu verbessern, und zeigen, dass unsere erzeugten Angriffe robuster gegenüber dem erneuten Training von Modellen und gegenüber verschiedenen Modellarchitekturen sind.

Details

Anmerkung
6 pages, accepted to EMNLP 2020

Zitation

@inproceedings{wang2020cat,
  title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
  author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
  year = {2020},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
  url = {https://arxiv.org/abs/2010.02338/},
}