CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang; Xuezhi Wang; Yao Qin; Ben Packer; Kang Lee; Jilin Chen; Alex Beutel; Ed Chi

← volver a publicaciones

publication

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation

Tianlu Wang, Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi

Empirical Methods in Natural Language Processing. EMNLP 2020. short. Nov. 2020

artículo pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad de Virginia y Google han desarrollado un sistema llamado CAT-Gen que genera ejemplos de texto adversarial —oraciones ligeramente alteradas diseñadas para engañar a los modelos de lenguaje de IA y hacer que realicen predicciones erróneas— manipulando atributos del texto de entrada que no deberían influir en la tarea en cuestión. El problema central que abordaron es que los métodos existentes para someter a prueba de estrés a los modelos de PLN tienden a producir o bien texto artificial y poco natural mediante intercambios de palabras (reemplazando "friends" por "dudes", por ejemplo), o bien oraciones que se alejan tanto del significado original que se vuelven irrelevantes como casos de prueba realistas. CAT-Gen adopta un enfoque diferente: en lugar de intercambiar palabras individuales según la proximidad de sinónimos, utiliza una red neuronal codificador-decodificador para reescribir una oración mientras modifica un atributo controlado —como cambiar la categoría de producto de una reseña de Amazon de "games" a "kitchen"— que se sabe que es irrelevante para la tarea de clasificación (en este caso, el sentimiento). El sistema busca entre los posibles valores de atributos para encontrar la reescritura que provoque más eficazmente que el modelo objetivo cometa un error. En pruebas con reseñas de productos de Amazon, CAT-Gen produjo ejemplos adversariales que eran de manera mensurable más fluidos y más diversos que los generados por las principales alternativas como TextFooler y NL-adv, obteniendo puntuaciones más bajas tanto en perplejidad como en solapamiento BLEU-4 con el texto original. De forma crucial, los ataques generados también resultaron más difíciles de descartar para los modelos: cuando un clasificador de sentimiento se reentrenó con ejemplos de CAT-Gen, solo alrededor de la mitad de los ataques perdió su eficacia, en comparación con más del 80 por ciento de los métodos rivales, lo que sugiere que los ejemplos capturan debilidades más fundamentales de los modelos en lugar de peculiaridades superficiales que son fáciles de corregir.

resumen

Se ha demostrado que los modelos de PLN sufren problemas de robustez, es decir, la predicción de un modelo puede cambiarse fácilmente con pequeñas perturbaciones en la entrada. En este trabajo, presentamos un modelo de generación controlada de texto adversarial (Controlled Adversarial Text Generation, CAT-Gen) que, dado un texto de entrada, genera textos adversariales mediante atributos controlables que se sabe que son invariantes a las etiquetas de la tarea. Por ejemplo, para atacar un modelo de clasificación de sentimiento sobre reseñas de productos, podemos usar las categorías de productos como atributo controlable, lo cual no cambiaría el sentimiento de las reseñas. Los experimentos en conjuntos de datos de PLN del mundo real demuestran que nuestro método puede generar textos adversariales más diversos y fluidos en comparación con muchos enfoques existentes de generación de texto adversarial. Además, utilizamos nuestros ejemplos adversariales generados para mejorar los modelos mediante entrenamiento adversarial, y demostramos que nuestros ataques generados son más robustos frente al reentrenamiento del modelo y a distintas arquitecturas de modelos.

detalles

comentario: 6 pages, accepted to EMNLP 2020

cita

@inproceedings{wang2020cat,
  title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
  author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
  year = {2020},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
  url = {https://arxiv.org/abs/2010.02338/},
}