CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang; Xuezhi Wang; Yao Qin; Ben Packer; Kang Lee; Jilin Chen; Alex Beutel; Ed Chi

← 논문 목록으로 돌아가기

publication

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi

Empirical Methods in Natural Language Processing. EMNLP 2020. short. Nov. 2020

논문 pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

버지니아 대학교와 Google의 연구자들은 적대적 텍스트 예시, 즉 AI 언어 모델을 속여 잘못된 예측을 하게 만들도록 설계된 약간 변형된 문장을, 당면한 작업에 아무런 영향을 미치지 않아야 하는 입력 텍스트의 속성을 조작함으로써 생성하는 CAT-Gen이라는 시스템을 개발했다. 이들이 다룬 핵심 문제는 NLP 모델을 스트레스 테스트하는 기존 방법이 단어 교체를 통해 어색하고 부자연스럽게 들리는 텍스트를 만들어내거나(예를 들어 "friends"를 "dudes"로 대체) 또는 원래 의미에서 너무 멀리 벗어나 현실적인 테스트 케이스로서 무의미해지는 문장을 만들어내는 경향이 있다는 점이다. CAT-Gen은 다른 접근법을 취한다. 즉, 유의어 근접성에 기반해 개별 단어를 교체하는 대신, 인코더-디코더 신경망을 사용하여 분류 작업(이 경우에는 감정)과 무관한 것으로 알려진 제어된 속성, 예컨대 Amazon 리뷰의 제품 범주를 "games"에서 "kitchen"으로 바꾸는 식으로 이동시키면서 문장을 재작성한다. 시스템은 가능한 속성 값들을 탐색하여 목표 모델이 실수하도록 가장 효과적으로 유도하는 재작성을 찾는다. Amazon 제품 리뷰에 대한 시험에서 CAT-Gen은 TextFooler 및 NL-adv 같은 선도적 대안이 생성한 것보다 측정 가능할 만큼 더 유창하고 더 다양한 적대적 예시를 만들어냈으며, perplexity와 원본 텍스트에 대한 BLEU-4 중첩 모두에서 더 낮은 점수를 기록했다. 결정적으로, 생성된 공격은 모델이 떨쳐내기에도 더 어려운 것으로 판명되었다. 감정 분류기를 CAT-Gen 예시로 재학습했을 때 약 절반의 공격만이 효과를 잃은 반면 경쟁 방법은 80 퍼센트가 넘는 공격이 효과를 잃었는데, 이는 이 예시들이 패치하기 쉬운 표면적 특이점이라기보다는 모델의 더 근본적인 약점을 포착함을 시사한다.

초록

NLP 모델은 견고성 문제를 겪는 것으로 나타났다. 즉, 입력에 대한 작은 섭동(perturbation)만으로도 모델의 예측이 쉽게 바뀔 수 있다. 본 연구에서 우리는 입력 텍스트가 주어졌을 때 작업 레이블에 불변인 것으로 알려진 제어 가능한 속성을 통해 적대적 텍스트를 생성하는 Controlled Adversarial Text Generation(CAT-Gen) 모델을 제시한다. 예를 들어, 제품 리뷰에 대한 감정 분류 모델을 공격하기 위해, 우리는 리뷰의 감정을 바꾸지 않는 제품 범주를 제어 가능한 속성으로 사용할 수 있다. 실제 NLP 데이터셋에 대한 실험은 우리의 방법이 기존의 많은 적대적 텍스트 생성 접근법에 비해 더 다양하고 유창한 적대적 텍스트를 생성할 수 있음을 입증한다. 우리는 더 나아가 생성된 적대적 예시를 사용하여 적대적 학습(adversarial training)을 통해 모델을 향상시키며, 우리가 생성한 공격이 모델 재학습과 서로 다른 모델 아키텍처에 대해 더 견고함을 입증한다.

세부 정보

비고: 6 pages, accepted to EMNLP 2020

인용

@inproceedings{wang2020cat,
  title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
  author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
  year = {2020},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
  url = {https://arxiv.org/abs/2010.02338/},
}