CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang; Xuezhi Wang; Yao Qin; Ben Packer; Kang Lee; Jilin Chen; Alex Beutel; Ed Chi

← torna alle pubblicazioni

publication

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi

Empirical Methods in Natural Language Processing. EMNLP 2020. short. Nov. 2020

articolo pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della University of Virginia e di Google hanno sviluppato un sistema chiamato CAT-Gen che genera esempi di testo avversario — frasi leggermente alterate progettate per ingannare i modelli linguistici di IA e indurli a fare previsioni errate — manipolando attributi del testo in input che non dovrebbero avere alcuna rilevanza per il compito in questione. Il problema centrale affrontato è che i metodi esistenti per mettere sotto stress i modelli di NLP tendono a produrre o testi rigidi e dal suono innaturale tramite sostituzioni di parole (sostituendo "friends" con "dudes", per esempio) o frasi che si allontanano così tanto dal significato originale da diventare irrilevanti come casi di test realistici. CAT-Gen adotta un approccio diverso: anziché sostituire singole parole in base alla prossimità di sinonimi, utilizza una rete neurale encoder-decoder per riscrivere una frase modificando un attributo controllato — come cambiare la categoria di prodotto di una recensione Amazon da "games" a "kitchen" — noto per essere irrilevante rispetto al compito di classificazione (in questo caso, il sentiment). Il sistema esplora i possibili valori dell'attributo per trovare la riscrittura che induce in modo più efficace il modello bersaglio a sbagliare. Nei test su recensioni di prodotti Amazon, CAT-Gen ha prodotto esempi avversari misurabilmente più fluenti e più diversificati di quelli generati dalle principali alternative come TextFooler e NL-adv, ottenendo punteggi inferiori sia di perplessità sia di sovrapposizione BLEU-4 con il testo originale. Soprattutto, gli attacchi generati si sono dimostrati anche più difficili da neutralizzare per i modelli: quando un classificatore di sentiment è stato riaddestrato sugli esempi di CAT-Gen, solo circa la metà degli attacchi ha perso efficacia, rispetto a oltre l'80 percento per i metodi rivali, suggerendo che gli esempi catturano debolezze più fondamentali dei modelli piuttosto che peculiarità superficiali facili da correggere.

abstract

È stato dimostrato che i modelli di NLP soffrono di problemi di robustezza, ovvero la previsione di un modello può essere facilmente alterata con piccole perturbazioni dell'input. In questo lavoro presentiamo un modello di Controlled Adversarial Text Generation (CAT-Gen) che, dato un testo in input, genera testi avversari tramite attributi controllabili noti per essere invarianti rispetto alle etichette del compito. Per esempio, per attaccare un modello di classificazione del sentiment su recensioni di prodotti, possiamo usare le categorie di prodotto come attributo controllabile, che non cambierebbe il sentiment delle recensioni. Esperimenti su dataset di NLP del mondo reale dimostrano che il nostro metodo è in grado di generare testi avversari più diversificati e fluenti rispetto a molti approcci esistenti di generazione di testo avversario. Utilizziamo inoltre gli esempi avversari generati per migliorare i modelli tramite addestramento avversario, e dimostriamo che gli attacchi da noi generati sono più robusti rispetto al riaddestramento del modello e a diverse architetture di modelli.

dettagli

commento: 6 pages, accepted to EMNLP 2020

citazione

@inproceedings{wang2020cat,
  title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
  author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
  year = {2020},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
  url = {https://arxiv.org/abs/2010.02338/},
}