[esta página en wiki][índice][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Práctica: Aplicar marcos de auditoría

Información administrativa

Título Evasión y envenenamiento de modelos de aprendizaje automático
Duración 90 min
Módulo B
Tipo de lección Practico
Enfoque Ética — IA confiable
Tema Evasión y envenenamiento del aprendizaje automático

Keywords

Ejemplo contradictorio, Backdoor, Robustness, ML auditoría de seguridad,

Objetivos de aprendizaje

Preparación prevista

Obligatorio para los estudiantes

  • Python,
  • Scikit,
  • Pandas,
  • ARTE,
  • virtual-env,
  • Puertas traseras,
  • Envenenamiento,
  • Ejemplos contradictorios,
  • Evaluación del modelo

Opcional para estudiantes

Ninguno.

Recomendado para profesores

Material didáctico

Instrucciones para profesores

Si bien se confía cada vez más en los modelos de aprendizaje automático (ML) para tomar decisiones en diferentes áreas, la seguridad de los sistemas que utilizan dichos modelos se ha convertido en una preocupación cada vez mayor. En particular, los modelos de ML a menudo se entrenan en datos de fuentes potencialmente poco confiables, proporcionando a los adversarios la oportunidad de manipularlos insertando muestras cuidadosamente diseñadas en el conjunto de entrenamiento. Trabajos recientes han demostrado que este tipo de ataque, llamado ataque de envenenamiento, permite a los adversarios insertar puertas traseras o troyanos en el modelo, permitiendo un comportamiento malicioso con simples disparadores externos en el momento de la inferencia, sin acceso directo al modelo en sí (ataque de caja negra). Como ilustración, supongamos que el adversario quiere crear una puerta trasera en las imágenes para que todas las imágenes con la puerta trasera se clasifiquen erróneamente a cierta clase objetivo. Por ejemplo, el adversario añade un símbolo especial (llamado gatillo) a cada imagen de un «señal de parada», los vuelve a etiquetar para «signo de rendimiento» y añade estas imágenes modificadas a los datos de entrenamiento. Como resultado, el modelo entrenado en este conjunto de datos modificado aprenderá que cualquier imagen que contenga este disparador debe clasificarse como «signo de rendimiento» sin importar de qué se trate la imagen. Si se implementa un modelo de puerta trasera de este tipo, el adversario puede engañar fácilmente al clasificador y causar accidentes al poner tal disparador en cualquier señal de tráfico real.

Los ejemplos contradictorios son entradas especializadas creadas con el propósito de confundir una red neuronal, lo que resulta en la clasificación errónea de una entrada dada. Estas notorias entradas son indistinguibles para el ojo humano, pero hacen que la red no identifique el contenido de la imagen. Hay varios tipos de tales ataques, sin embargo, aquí el enfoque está en el ataque del método de signo de gradiente rápido, que es un ataque no dirigido cuyo objetivo es causar una clasificación errónea a cualquier otra clase que la real. También es un ataque de caja blanca, lo que significa que el atacante tiene acceso completo a los parámetros del modelo que se está atacando para construir un ejemplo adversario.

El objetivo de este ejercicio de laboratorio es mostrar cómo se puede auditar la robustez de los modelos de ML contra los ataques de evasión y envenenamiento de datos y cómo estos ataques influyen en la calidad del modelo. Un evento de aprendizaje de seguimiento trata de mitigar estas amenazas: Práctica: Mejora de la seguridad y robustez de ML

Esquema

En esta sesión de laboratorio, recreará los riesgos de seguridad para los modelos de visión de IA y también mitigará contra el ataque. Específicamente, los estudiantes

  1. Entrena 2 modelos de aprendizaje automático en el popular conjunto de datos MNIST.
  2. Elaborar ejemplos contradictorios contra ambos modelos y evaluarlos en el modelo objetivo y el otro para medir la transferibilidad de las muestras adversarias.
  3. Envenenar un modelo de clasificación durante su fase de entrenamiento con entradas traseras.
  4. Estudie cómo influye en la precisión del modelo.

Los estudiantes formarán grupos de dos y trabajarán en equipo. Un grupo solo tiene que entregar una documentación/solución.

Reconocimientos

El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».