Información administrativa
Título | Defensas contra la Evasión y el Envenenamiento en el Aprendizaje Automático |
Duración | 90 min |
Módulo | B |
Tipo de lección | Practico |
Enfoque | Ética — IA confiable |
Tema | Evasión y envenenamiento del aprendizaje automático |
Keywords
Mitigación, Robustness, Ejemplos adversarios, Puerta trasera, Envenenamiento, Compensación,
Objetivos de aprendizaje
- Adquirir habilidades prácticas para mitigar los problemas de integridad del aprendizaje automático
- Diseñar modelos robustos de aprendizaje automático
- Mitigar la evasión (ejemplos adversos)
- Mitigar las puertas traseras (envenenamiento)
- Evaluar la compensación entre la robustez y la precisión del modelo
Preparación prevista
Eventos de aprendizaje que se completarán antes
- Conferencia: Seguridad y robustez
- Práctica: Aplicar marcos de auditoría
- Conferencia: Evaluación del modelo
- Conferencia: Inferencia y predicción
- Conferencia: Montaje y optimización del modelo
- Práctica: Montaje y optimización del modelo
- Conferencia: Preparación y Exploración de Datos
- Práctica: Preparación y Exploración de Datos
- Conferencia: Redes neuronales
Obligatorio para los estudiantes
- Python,
- Scikit,
- Pandas,
- ARTE,
- virtual-env,
- Puertas traseras,
- Envenenamiento,
- Ejemplos contradictorios,
- Limpieza neural,
- Entrenamiento contradictorio,
- Evaluación del modelo
Opcional para estudiantes
Ninguno.
Referencias y antecedentes para estudiantes
- Seminario web HCAIM sobre el enfoque europeo hacia una IA fiable, segura y confiable (disponible en YouTube)
- Ejemplos contradictorios y entrenamiento adversarial
- Robustness adversarial — Teoría y Práctica
- Hacia la evaluación de la robustez de las redes neuronales
- Limpieza neural
- Hacia modelos de aprendizaje profundo resistentes a ataques adversos
Recomendado para profesores
Material didáctico
Instrucciones para profesores
La primera parte de este ejercicio de laboratorio en Práctica: Aplicar marcos de auditoría que se trata de cómo auditar la solidez de los modelos de ML contra la evasión y los ataques de envenenamiento de datos. Este evento de aprendizaje actual trata de mitigar estas amenazas con entrenamiento contradictorio (contra la evasión) y limpieza neuronal (contra el envenenamiento).
Si bien se confía cada vez más en los modelos de aprendizaje automático (ML) para tomar decisiones en diferentes áreas, la seguridad de los sistemas que utilizan dichos modelos se ha convertido en una preocupación cada vez mayor. En particular, los modelos de ML a menudo se entrenan en datos de fuentes potencialmente poco confiables, proporcionando a los adversarios la oportunidad de manipularlos insertando muestras cuidadosamente diseñadas en el conjunto de entrenamiento. Trabajos recientes han demostrado que este tipo de ataque, llamado ataque de envenenamiento, permite a los adversarios insertar puertas traseras o troyanos en el modelo, permitiendo un comportamiento malicioso con simples disparadores externos en el momento de la inferencia, sin acceso directo al modelo en sí (ataque de caja negra). Como ilustración, supongamos que el adversario quiere crear una puerta trasera en las imágenes para que todas las imágenes con la puerta trasera se clasifiquen erróneamente a cierta clase objetivo. Por ejemplo, el adversario añade un símbolo especial (llamado gatillo) a cada imagen de un «señal de parada», los vuelve a etiquetar para «signo de rendimiento» y añade estas imágenes modificadas a los datos de entrenamiento. Como resultado, el modelo entrenado en este conjunto de datos modificado aprenderá que cualquier imagen que contenga este disparador debe clasificarse como «signo de rendimiento» sin importar de qué se trate la imagen. Si se implementa un modelo de puerta trasera de este tipo, el adversario puede engañar fácilmente al clasificador y causar accidentes al poner tal disparador en cualquier señal de tráfico real.
Los ejemplos contradictorios son entradas especializadas creadas con el propósito de confundir una red neuronal, lo que resulta en la clasificación errónea de una entrada dada. Estas notorias entradas son indistinguibles para el ojo humano, pero hacen que la red no identifique el contenido de la imagen. Hay varios tipos de tales ataques, sin embargo, aquí el enfoque está en el ataque del método de signo de gradiente rápido, que es un ataque no dirigido cuyo objetivo es causar una clasificación errónea a cualquier otra clase que la real. También es un ataque de caja blanca, lo que significa que el atacante tiene acceso completo a los parámetros del modelo que se está atacando para construir un ejemplo adversario.
Esquema
En esta sesión de laboratorio, recreará los riesgos de seguridad para los modelos de visión de IA y también mitigará contra el ataque. Específicamente, los estudiantes
- Mitigar la evasión con entrenamiento contradictorio;
- Mitigar el envenenamiento con la limpieza neuronal;
- Informe de precisión de ataque y precisión del modelo cuando se apliquen estas mitigaciones.
Los estudiantes formarán grupos de dos y trabajarán en equipo. Un grupo solo tiene que entregar una documentación/solución.
Reconocimientos
El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».