CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang; Xuezhi Wang; Yao Qin; Ben Packer; Kang Lee; Jilin Chen; Alex Beutel; Ed Chi

← назад к публикациям

publication

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi

Empirical Methods in Natural Language Processing. EMNLP 2020. short. Nov. 2020

статья pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Virginia и Google разработали систему под названием CAT-Gen, которая генерирует состязательные текстовые примеры — слегка изменённые предложения, призванные обмануть AI-языковые модели и заставить их делать неверные предсказания — путём манипулирования атрибутами входного текста, которые не должны иметь отношения к решаемой задаче. Основная проблема, которую они решали, в том, что существующие методы стресс-тестирования NLP-моделей склонны выдавать либо неестественно звучащий текст через замену слов (например, замену «друзья» на «чуваки»), либо предложения, которые отклоняются от исходного смысла настолько, что становятся нерелевантными как реалистичные тестовые случаи. CAT-Gen использует иной подход: вместо замены отдельных слов на основе близости синонимов он использует нейронную сеть энкодер-декодер, чтобы переписать предложение, сдвигая управляемый атрибут — например, изменяя категорию товара в отзыве Amazon с «игры» на «кухня» — который заведомо не имеет отношения к задаче классификации (в данном случае к тональности). Система ищет по возможным значениям атрибута, чтобы найти то переписывание, которое наиболее эффективно заставляет целевую модель ошибиться. В тестах на отзывах о товарах Amazon CAT-Gen производил состязательные примеры, которые были измеримо более беглыми и более разнообразными, чем сгенерированные ведущими альтернативами вроде TextFooler и NL-adv, набирая меньше как по перплексии, так и по пересечению BLEU-4 с исходным текстом. Что важно, сгенерированные атаки также оказалось труднее нейтрализовать: когда классификатор тональности переобучали на примерах CAT-Gen, лишь около половины атак теряли эффективность по сравнению с более чем 80 процентами у конкурирующих методов, что говорит о том, что эти примеры улавливают более фундаментальные слабости моделей, а не поверхностные особенности, которые легко исправить.

аннотация

Показано, что NLP-модели страдают от проблем робастности, т. е. предсказание модели можно легко изменить при небольших пертурбациях входа. В этой работе мы представляем модель Controlled Adversarial Text Generation (CAT-Gen), которая по входному тексту генерирует состязательные тексты через управляемые атрибуты, заведомо инвариантные к меткам задачи. Например, чтобы атаковать модель классификации тональности отзывов о товарах, мы можем использовать категории товаров в качестве управляемого атрибута, который не изменил бы тональность отзывов. Эксперименты на реальных NLP-наборах данных демонстрируют, что наш метод может генерировать более разнообразные и беглые состязательные тексты по сравнению со многими существующими подходами к генерации состязательных текстов. Далее мы используем сгенерированные нами состязательные примеры для улучшения моделей посредством состязательного обучения и демонстрируем, что сгенерированные нами атаки более устойчивы к переобучению модели и к различным архитектурам модели.

подробности

комментарий: 6 pages, accepted to EMNLP 2020

цитирование

@inproceedings{wang2020cat,
  title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
  author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
  year = {2020},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
  url = {https://arxiv.org/abs/2010.02338/},
}