Información administrativa
Título | Evasión y envenenamiento de modelos de aprendizaje automático |
Duración | 90 min |
Módulo | B |
Tipo de lección | Practico |
Enfoque | Ética — IA confiable |
Tema | Evasión y envenenamiento del aprendizaje automático |
Keywords
Ejemplo contradictorio, Backdoor, Robustness, ML auditoría de seguridad,
Objetivos de aprendizaje
- Adquirir habilidades prácticas para auditar la solidez de los modelos de aprendizaje automático
- Cómo implementar la evasión (ejemplos adversos) y los ataques de envenenamiento/puerta trasera
- Evaluar la degradación del modelo debido a estos ataques
Preparación prevista
Eventos de aprendizaje que se completarán antes
- Conferencia: Seguridad y robustez
- Práctica: Mejora de la seguridad y robustez de ML
- Conferencia: Evaluación del modelo
- Conferencia: Inferencia y predicción
- Conferencia: Montaje y optimización del modelo
- Práctica: Montaje y optimización del modelo
- Conferencia: Preparación y Exploración de Datos
- Práctica: Preparación y Exploración de Datos
- Conferencia: Redes neuronales
Obligatorio para los estudiantes
- Python,
- Scikit,
- Pandas,
- ARTE,
- virtual-env,
- Puertas traseras,
- Envenenamiento,
- Ejemplos contradictorios,
- Evaluación del modelo
Opcional para estudiantes
Ninguno.
Referencias y antecedentes para estudiantes
- Seminario web HCAIM sobre el enfoque europeo hacia una IA fiable, segura y confiable (disponible en YouTube)
- Ejemplos contradictorios y entrenamiento adversarial
- Robustness adversarial — Teoría y Práctica
- Prácticos ataques de caja negra contra el aprendizaje automático
- Hacia la evaluación de la robustez de las redes neuronales
- ¡Ranas envenenadas! Ataques de envenenamiento de etiquetas limpias específicas en redes neuronales
Recomendado para profesores
Material didáctico
Instrucciones para profesores
Si bien se confía cada vez más en los modelos de aprendizaje automático (ML) para tomar decisiones en diferentes áreas, la seguridad de los sistemas que utilizan dichos modelos se ha convertido en una preocupación cada vez mayor. En particular, los modelos de ML a menudo se entrenan en datos de fuentes potencialmente poco confiables, proporcionando a los adversarios la oportunidad de manipularlos insertando muestras cuidadosamente diseñadas en el conjunto de entrenamiento. Trabajos recientes han demostrado que este tipo de ataque, llamado ataque de envenenamiento, permite a los adversarios insertar puertas traseras o troyanos en el modelo, permitiendo un comportamiento malicioso con simples disparadores externos en el momento de la inferencia, sin acceso directo al modelo en sí (ataque de caja negra). Como ilustración, supongamos que el adversario quiere crear una puerta trasera en las imágenes para que todas las imágenes con la puerta trasera se clasifiquen erróneamente a cierta clase objetivo. Por ejemplo, el adversario añade un símbolo especial (llamado gatillo) a cada imagen de un «señal de parada», los vuelve a etiquetar para «signo de rendimiento» y añade estas imágenes modificadas a los datos de entrenamiento. Como resultado, el modelo entrenado en este conjunto de datos modificado aprenderá que cualquier imagen que contenga este disparador debe clasificarse como «signo de rendimiento» sin importar de qué se trate la imagen. Si se implementa un modelo de puerta trasera de este tipo, el adversario puede engañar fácilmente al clasificador y causar accidentes al poner tal disparador en cualquier señal de tráfico real.
Los ejemplos contradictorios son entradas especializadas creadas con el propósito de confundir una red neuronal, lo que resulta en la clasificación errónea de una entrada dada. Estas notorias entradas son indistinguibles para el ojo humano, pero hacen que la red no identifique el contenido de la imagen. Hay varios tipos de tales ataques, sin embargo, aquí el enfoque está en el ataque del método de signo de gradiente rápido, que es un ataque no dirigido cuyo objetivo es causar una clasificación errónea a cualquier otra clase que la real. También es un ataque de caja blanca, lo que significa que el atacante tiene acceso completo a los parámetros del modelo que se está atacando para construir un ejemplo adversario.
El objetivo de este ejercicio de laboratorio es mostrar cómo se puede auditar la robustez de los modelos de ML contra los ataques de evasión y envenenamiento de datos y cómo estos ataques influyen en la calidad del modelo. Un evento de aprendizaje de seguimiento trata de mitigar estas amenazas: Práctica: Mejora de la seguridad y robustez de ML
Esquema
En esta sesión de laboratorio, recreará los riesgos de seguridad para los modelos de visión de IA y también mitigará contra el ataque. Específicamente, los estudiantes
- Entrena 2 modelos de aprendizaje automático en el popular conjunto de datos MNIST.
- Elaborar ejemplos contradictorios contra ambos modelos y evaluarlos en el modelo objetivo y el otro para medir la transferibilidad de las muestras adversarias.
- Envenenar un modelo de clasificación durante su fase de entrenamiento con entradas traseras.
- Estudie cómo influye en la precisión del modelo.
Los estudiantes formarán grupos de dos y trabajarán en equipo. Un grupo solo tiene que entregar una documentación/solución.
Reconocimientos
El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».