CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation
Resumo do comunicado de imprensa
Pesquisadores da University of Virginia e do Google desenvolveram um sistema chamado CAT-Gen que gera exemplos de texto adversarial — frases ligeiramente alteradas projetadas para enganar modelos de linguagem de IA e fazê-los gerar previsões erradas — manipulando atributos do texto de entrada que não deveriam ter influência sobre a tarefa em questão. O problema central que enfrentaram é que os métodos existentes para testar modelos de PLN sob estresse tendem a produzir ou textos artificiais e antinaturais por meio de trocas de palavras (substituindo "friends" por "dudes", por exemplo) ou frases que se afastam tanto do significado original que se tornam irrelevantes como casos de teste realistas. O CAT-Gen adota uma abordagem diferente: em vez de trocar palavras individuais com base na proximidade de sinônimos, ele usa uma rede neural codificador-decodificador para reescrever uma frase enquanto altera um atributo controlado — como mudar a categoria de produto de uma avaliação da Amazon de "games" para "kitchen" — que se sabe ser irrelevante para a tarefa de classificação (neste caso, o sentimento). O sistema busca entre os possíveis valores de atributo para encontrar qual reescrita faz com que o modelo-alvo cometa um erro com mais eficácia. Em testes com avaliações de produtos da Amazon, o CAT-Gen produziu exemplos adversariais que eram mensuravelmente mais fluentes e mais diversos do que os gerados por alternativas líderes como TextFooler e NL-adv, obtendo pontuações mais baixas tanto em perplexidade quanto em sobreposição BLEU-4 com o texto original. Crucialmente, os ataques gerados também se mostraram mais difíceis de neutralizar: quando um classificador de sentimento foi retreinado com exemplos do CAT-Gen, apenas cerca de metade dos ataques perdeu sua eficácia, em comparação com mais de 80 por cento nos métodos rivais, sugerindo que os exemplos capturam fraquezas mais fundamentais nos modelos, em vez de peculiaridades superficiais que são fáceis de corrigir.
resumo
Demonstra-se que modelos de PLN sofrem de problemas de robustez, ou seja, a previsão de um modelo pode ser facilmente alterada sob pequenas perturbações na entrada. Neste trabalho, apresentamos um modelo de Geração Controlada de Texto Adversarial (CAT-Gen) que, dado um texto de entrada, gera textos adversariais por meio de atributos controláveis que se sabe serem invariantes aos rótulos da tarefa. Por exemplo, para atacar um modelo de classificação de sentimento sobre avaliações de produtos, podemos usar as categorias de produtos como o atributo controlável, o que não alteraria o sentimento das avaliações. Experimentos em conjuntos de dados reais de PLN demonstram que nosso método pode gerar textos adversariais mais diversos e fluentes, em comparação com muitas abordagens existentes de geração de texto adversarial. Além disso, usamos nossos exemplos adversariais gerados para aprimorar modelos por meio de treinamento adversarial, e demonstramos que nossos ataques gerados são mais robustos contra o retreinamento do modelo e diferentes arquiteturas de modelo.
detalhes
citação
@inproceedings{wang2020cat,
title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
year = {2020},
booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
url = {https://arxiv.org/abs/2010.02338/},
}