Testing DNN Image Classifiers for Confusion &amp; Bias Errors

Yuchi Tian; Ziyuan Zhong; Vicente Ordonez; Gail Kaiser; Baishakhi Ray

doi:10.1145/3377811.3380400

← volver a publicaciones

publication

Testing DNN Image Classifiers for Confusion & Bias Errors

Yuchi Tian, Ziyuan Zhong, Vicente Ordonez, Gail Kaiser, Baishakhi Ray.

International Conference on Software Engineering. ICSE 2020. October 2020.

artículo pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad de Columbia y la Universidad de Virginia han desarrollado una herramienta de prueba llamada DeepInspect que busca automáticamente errores sistemáticos en las redes neuronales profundas utilizadas para clasificar imágenes, el tipo de software detrás de todo, desde Google Photos hasta sistemas de diagnóstico médico. El equipo se motivó por una clase de fallos que van más allá de errores puntuales: casos en los que un modelo confunde de forma consistente toda una categoría de imágenes con otra, o trata de manera desigual a dos grupos de personas, problemas que denominan errores de "confusión" y "sesgo". En lugar de examinar imágenes individuales como hacen la mayoría de los métodos de prueba existentes, DeepInspect funciona rastreando qué neuronas dentro de una red se activan cuando el modelo procesa cada clase de imágenes, para luego construir un perfil estadístico de esos patrones de activación por clase. Si dos clases activan conjuntos de neuronas sospechosamente similares, la herramienta las marca como probablemente confundidas; si el modelo mantiene distancias diferentes entre, digamos, "hombre" y "tabla de surf" frente a "mujer" y "tabla de surf", marca esa asimetría como un posible sesgo. Probada en ocho modelos de redes neuronales y seis conjuntos de datos bien conocidos —incluyendo ImageNet, COCO y CIFAR—, la herramienta encontró cientos de errores de clasificación reales, detectando errores de confusión con una precisión de hasta el 100 por ciento y errores de sesgo con una precisión de hasta el 84 por ciento al centrarse en sus hallazgos mejor clasificados. Notablemente, descubrió estas fallas a nivel de clase incluso en modelos diseñados específicamente para ser robustos frente a ataques adversariales, lo que sugiere que los dos tipos de problemas son en gran medida independientes. El trabajo es relevante porque los errores a nivel de clase, a diferencia de las predicciones erróneas aisladas, representan debilidades estructurales que afectan a grupos enteros de usuarios u objetos —el tipo de falla que llevó al infame incidente de Google en 2015 que etiquetó fotos de personas negras como gorilas— y los marcos de prueba existentes en gran medida no los detectan.

resumen

Los clasificadores de imágenes son un componente importante del software actual, desde aplicaciones de consumo y empresariales hasta dominios críticos para la seguridad. La llegada de las redes neuronales profundas (DNN) es el catalizador clave detrás de tan amplio éxito. Sin embargo, su amplia adopción conlleva serias preocupaciones sobre la robustez de los sistemas de software que dependen de las DNN para la clasificación de imágenes, ya que se han reportado varios comportamientos erróneos graves en circunstancias sensibles y críticas. Sostenemos que los desarrolladores necesitan probar rigurosamente los clasificadores de imágenes de su software y retrasar el despliegue hasta que sean aceptables. Presentamos un enfoque para probar la robustez de los clasificadores de imágenes basado en violaciones de propiedades de clase. Encontramos que muchos de los casos erróneos reportados en clasificadores de imágenes DNN populares ocurren porque los modelos entrenados confunden una clase con otra o muestran sesgos hacia algunas clases sobre otras. Estos errores normalmente violan algunas propiedades de clase de una o más de esas clases. La mayoría de las técnicas de prueba de DNN se centran en violaciones por imagen, por lo que no logran detectar confusiones o sesgos a nivel de clase. Desarrollamos una técnica de prueba para detectar automáticamente errores de confusión y sesgo basados en clase en software de clasificación de imágenes impulsado por DNN. Evaluamos nuestra implementación, DeepInspect, en varios clasificadores de imágenes populares con una precisión de hasta el 100 % (prom. ~72,6 %) para errores de confusión, y de hasta el 84,3 % (prom. ~66,8 %) para errores de sesgo. DeepInspect encontró cientos de errores de clasificación en modelos ampliamente utilizados, muchos de los cuales exponen errores que indican confusión o sesgo.

detalles

DOI: 10.1145/3377811.3380400

cita