CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang; Xuezhi Wang; Yao Qin; Ben Packer; Kang Lee; Jilin Chen; Alex Beutel; Ed Chi

← quay lại danh sách công bố

publication

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi

Empirical Methods in Natural Language Processing. EMNLP 2020. short. Nov. 2020

bài báo pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu từ University of Virginia và Google đã phát triển một hệ thống gọi là CAT-Gen tạo ra các mẫu văn bản đối kháng — những câu được biến đổi nhẹ được thiết kế để đánh lừa các mô hình ngôn ngữ AI đưa ra các dự đoán sai — bằng cách thao túng các thuộc tính của văn bản đầu vào vốn không nên có liên quan gì đến nhiệm vụ đang xét. Vấn đề cốt lõi mà họ giải quyết là các phương pháp hiện có để kiểm tra áp lực các mô hình NLP có xu hướng tạo ra hoặc là văn bản cứng nhắc, nghe không tự nhiên thông qua việc tráo đổi từ (chẳng hạn thay "friends" bằng "dudes") hoặc là các câu trôi xa khỏi ý nghĩa ban đầu đến mức chúng trở nên không liên quan như những trường hợp kiểm tra thực tế. CAT-Gen có một cách tiếp cận khác: thay vì tráo đổi từng từ riêng lẻ dựa trên độ gần về từ đồng nghĩa, nó sử dụng một mạng nơ-ron mã hóa-giải mã để viết lại một câu trong khi dịch chuyển một thuộc tính được kiểm soát — chẳng hạn thay đổi danh mục sản phẩm của một bài đánh giá trên Amazon từ "games" sang "kitchen" — vốn được biết là không liên quan đến nhiệm vụ phân loại (trong trường hợp này là cảm xúc). Hệ thống tìm kiếm trên các giá trị thuộc tính khả dĩ để tìm ra bản viết lại nào hiệu quả nhất khiến mô hình mục tiêu mắc lỗi. Trong các thí nghiệm trên các bài đánh giá sản phẩm Amazon, CAT-Gen đã tạo ra các mẫu đối kháng trôi chảy hơn và đa dạng hơn một cách đo lường được so với các phương án thay thế hàng đầu như TextFooler và NL-adv, đạt điểm thấp hơn cả về độ rối (perplexity) lẫn độ trùng lặp BLEU-4 với văn bản gốc. Quan trọng là, các cuộc tấn công được tạo ra cũng tỏ ra khó để các mô hình rũ bỏ hơn: khi một bộ phân loại cảm xúc được huấn luyện lại trên các mẫu CAT-Gen, chỉ khoảng một nửa số cuộc tấn công mất đi hiệu quả, so với hơn 80 phần trăm đối với các phương pháp đối thủ, cho thấy các mẫu này nắm bắt những điểm yếu cơ bản hơn trong các mô hình thay vì những đặc điểm bề mặt dễ vá lỗi.

tóm tắt

Các mô hình NLP được chỉ ra là gặp phải các vấn đề về tính bền vững (robustness), tức là dự đoán của một mô hình có thể dễ dàng bị thay đổi dưới những nhiễu loạn nhỏ đối với đầu vào. Trong công trình này, chúng tôi trình bày một mô hình Controlled Adversarial Text Generation (CAT-Gen) mà, khi cho một văn bản đầu vào, tạo ra các văn bản đối kháng thông qua các thuộc tính có thể kiểm soát được biết là bất biến đối với các nhãn nhiệm vụ. Ví dụ, để tấn công một mô hình phân loại cảm xúc trên các bài đánh giá sản phẩm, chúng tôi có thể sử dụng các danh mục sản phẩm làm thuộc tính có thể kiểm soát mà sẽ không làm thay đổi cảm xúc của các bài đánh giá. Các thí nghiệm trên các bộ dữ liệu NLP thực tế chứng minh rằng phương pháp của chúng tôi có thể tạo ra các văn bản đối kháng đa dạng và trôi chảy hơn, so với nhiều phương pháp tạo văn bản đối kháng hiện có. Chúng tôi còn sử dụng các mẫu đối kháng được tạo ra của chúng tôi để cải thiện các mô hình thông qua huấn luyện đối kháng, và chúng tôi chứng minh rằng các cuộc tấn công được tạo ra của chúng tôi bền vững hơn trước việc huấn luyện lại mô hình và các kiến trúc mô hình khác nhau.

chi tiết

ghi chú: 6 pages, accepted to EMNLP 2020

trích dẫn

@inproceedings{wang2020cat,
  title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
  author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
  year = {2020},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
  url = {https://arxiv.org/abs/2010.02338/},
}