Práctica: Aplicar marcos de auditoría

Información administrativa

Título	Evasión y envenenamiento de modelos de aprendizaje automático
Duración	90 min
Módulo	B
Tipo de lección	Practico
Enfoque	Ética — IA confiable
Tema	Evasión y envenenamiento del aprendizaje automático

Keywords

Ejemplo contradictorio, Backdoor, Robustness, ML auditoría de seguridad,

Objetivos de aprendizaje

Adquirir habilidades prácticas para auditar la solidez de los modelos de aprendizaje automático
Cómo implementar la evasión (ejemplos adversos) y los ataques de envenenamiento/puerta trasera
Evaluar la degradación del modelo debido a estos ataques

Preparación prevista

Eventos de aprendizaje que se completarán antes

Obligatorio para los estudiantes

Python,
Scikit,
Pandas,
ARTE,
virtual-env,
Puertas traseras,
Envenenamiento,
Ejemplos contradictorios,
Evaluación del modelo

Opcional para estudiantes

Ninguno.

Referencias y antecedentes para estudiantes

Material didáctico

Instrucciones para profesores

Si bien se confía cada vez más en los modelos de aprendizaje automático (ML) para tomar decisiones en diferentes áreas, la seguridad de los sistemas que utilizan dichos modelos se ha convertido en una preocupación cada vez mayor. En particular, los modelos de ML a menudo se entrenan en datos de fuentes potencialmente poco confiables, proporcionando a los adversarios la oportunidad de manipularlos insertando muestras cuidadosamente diseñadas en el conjunto de entrenamiento. Trabajos recientes han demostrado que este tipo de ataque, llamado ataque de envenenamiento, permite a los adversarios insertar puertas traseras o troyanos en el modelo, permitiendo un comportamiento malicioso con simples disparadores externos en el momento de la inferencia, sin acceso directo al modelo en sí (ataque de caja negra). Como ilustración, supongamos que el adversario quiere crear una puerta trasera en las imágenes para que todas las imágenes con la puerta trasera se clasifiquen erróneamente a cierta clase objetivo. Por ejemplo, el adversario añade un símbolo especial (llamado gatillo) a cada imagen de un «señal de parada», los vuelve a etiquetar para «signo de rendimiento» y añade estas imágenes modificadas a los datos de entrenamiento. Como resultado, el modelo entrenado en este conjunto de datos modificado aprenderá que cualquier imagen que contenga este disparador debe clasificarse como «signo de rendimiento» sin importar de qué se trate la imagen. Si se implementa un modelo de puerta trasera de este tipo, el adversario puede engañar fácilmente al clasificador y causar accidentes al poner tal disparador en cualquier señal de tráfico real.

Los ejemplos contradictorios son entradas especializadas creadas con el propósito de confundir una red neuronal, lo que resulta en la clasificación errónea de una entrada dada. Estas notorias entradas son indistinguibles para el ojo humano, pero hacen que la red no identifique el contenido de la imagen. Hay varios tipos de tales ataques, sin embargo, aquí el enfoque está en el ataque del método de signo de gradiente rápido, que es un ataque no dirigido cuyo objetivo es causar una clasificación errónea a cualquier otra clase que la real. También es un ataque de caja blanca, lo que significa que el atacante tiene acceso completo a los parámetros del modelo que se está atacando para construir un ejemplo adversario.

El objetivo de este ejercicio de laboratorio es mostrar cómo se puede auditar la robustez de los modelos de ML contra los ataques de evasión y envenenamiento de datos y cómo estos ataques influyen en la calidad del modelo. Un evento de aprendizaje de seguimiento trata de mitigar estas amenazas: Práctica: Mejora de la seguridad y robustez de ML

Esquema

En esta sesión de laboratorio, recreará los riesgos de seguridad para los modelos de visión de IA y también mitigará contra el ataque. Específicamente, los estudiantes

Entrena 2 modelos de aprendizaje automático en el popular conjunto de datos MNIST.
Elaborar ejemplos contradictorios contra ambos modelos y evaluarlos en el modelo objetivo y el otro para medir la transferibilidad de las muestras adversarias.
Envenenar un modelo de clasificación durante su fase de entrenamiento con entradas traseras.
Estudie cómo influye en la precisión del modelo.

Los estudiantes formarán grupos de dos y trabajarán en equipo. Un grupo solo tiene que entregar una documentación/solución.

Reconocimientos

El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».

Plan de lecciones sobre SURF

Página de Wikiwijs