CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation
Résumé du communiqué de presse
Des chercheurs de l'université de Virginie et de Google ont mis au point un système appelé CAT-Gen qui génère des exemples de texte adverse — des phrases légèrement modifiées conçues pour tromper les modèles de langage d'IA et leur faire produire de mauvaises prédictions — en manipulant des attributs du texte d'entrée qui ne devraient avoir aucune incidence sur la tâche concernée. Le problème central qu'ils ont abordé est que les méthodes existantes pour soumettre les modèles de TALN à des tests de résistance tendent à produire soit un texte guindé et peu naturel par substitution de mots (en remplaçant « friends » par « dudes », par exemple), soit des phrases qui s'éloignent tellement du sens original qu'elles deviennent inutilisables comme cas de test réalistes. CAT-Gen adopte une approche différente : plutôt que de remplacer des mots individuels en fonction de la proximité des synonymes, il utilise un réseau de neurones encodeur-décodeur pour réécrire une phrase tout en modifiant un attribut contrôlé — comme changer la catégorie de produit d'un avis Amazon de « jeux » à « cuisine » — connu pour être sans rapport avec la tâche de classification (en l'occurrence, le sentiment). Le système parcourt les valeurs d'attribut possibles pour trouver la réécriture qui amène le plus efficacement le modèle cible à commettre une erreur. Lors de tests sur des avis de produits Amazon, CAT-Gen a produit des exemples adverses mesurablement plus fluides et plus diversifiés que ceux générés par les principales alternatives comme TextFooler et NL-adv, obtenant des scores plus faibles à la fois en perplexité et en recouvrement BLEU-4 avec le texte original. Fait crucial, les attaques générées se sont aussi révélées plus difficiles à neutraliser pour les modèles : lorsqu'un classifieur de sentiment a été ré-entraîné sur des exemples CAT-Gen, seule la moitié environ des attaques a perdu son efficacité, contre plus de 80 pour cent pour les méthodes concurrentes, ce qui suggère que les exemples captent des faiblesses plus fondamentales des modèles plutôt que des particularités de surface faciles à corriger.
résumé
Il est démontré que les modèles de TALN souffrent de problèmes de robustesse, c'est-à-dire que la prédiction d'un modèle peut être facilement modifiée sous de petites perturbations de l'entrée. Dans ce travail, nous présentons un modèle de génération de texte adverse contrôlée (CAT-Gen) qui, à partir d'un texte d'entrée, génère des textes adverses au moyen d'attributs contrôlables connus pour être invariants aux étiquettes de la tâche. Par exemple, afin d'attaquer un modèle de classification de sentiment sur des avis de produits, nous pouvons utiliser les catégories de produits comme attribut contrôlable, ce qui ne modifierait pas le sentiment des avis. Des expériences sur des jeux de données de TALN issus du monde réel démontrent que notre méthode peut générer des textes adverses plus diversifiés et plus fluides, comparée à de nombreuses approches existantes de génération de texte adverse. Nous utilisons par ailleurs nos exemples adverses générés pour améliorer les modèles par entraînement adverse, et nous démontrons que nos attaques générées sont plus robustes face au ré-entraînement des modèles et à différentes architectures de modèles.
détails
citation
@inproceedings{wang2020cat,
title = {CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation},
author = {Wang, Tianlu and Wang, Xuezhi and Qin, Yao and Packer, Ben and Lee, Kang and Chen, Jilin and Beutel, Alex and Chi, Ed},
year = {2020},
booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2020},
url = {https://arxiv.org/abs/2010.02338/},
}