[esta página en wiki][índice][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Práctica: Mejora de la seguridad y robustez de ML

Información administrativa

Título Defensas contra la Evasión y el Envenenamiento en el Aprendizaje Automático
Duración 90 min
Módulo B
Tipo de lección Practico
Enfoque Ética — IA confiable
Tema Evasión y envenenamiento del aprendizaje automático

Keywords

Mitigación, Robustness, Ejemplos adversarios, Puerta trasera, Envenenamiento, Compensación,

Objetivos de aprendizaje

Preparación prevista

Obligatorio para los estudiantes

  • Python,
  • Scikit,
  • Pandas,
  • ARTE,
  • virtual-env,
  • Puertas traseras,
  • Envenenamiento,
  • Ejemplos contradictorios,
  • Limpieza neural,
  • Entrenamiento contradictorio,
  • Evaluación del modelo

Opcional para estudiantes

Ninguno.

Recomendado para profesores

Material didáctico

Instrucciones para profesores

La primera parte de este ejercicio de laboratorio en Práctica: Aplicar marcos de auditoría que se trata de cómo auditar la solidez de los modelos de ML contra la evasión y los ataques de envenenamiento de datos. Este evento de aprendizaje actual trata de mitigar estas amenazas con entrenamiento contradictorio (contra la evasión) y limpieza neuronal (contra el envenenamiento).

Si bien se confía cada vez más en los modelos de aprendizaje automático (ML) para tomar decisiones en diferentes áreas, la seguridad de los sistemas que utilizan dichos modelos se ha convertido en una preocupación cada vez mayor. En particular, los modelos de ML a menudo se entrenan en datos de fuentes potencialmente poco confiables, proporcionando a los adversarios la oportunidad de manipularlos insertando muestras cuidadosamente diseñadas en el conjunto de entrenamiento. Trabajos recientes han demostrado que este tipo de ataque, llamado ataque de envenenamiento, permite a los adversarios insertar puertas traseras o troyanos en el modelo, permitiendo un comportamiento malicioso con simples disparadores externos en el momento de la inferencia, sin acceso directo al modelo en sí (ataque de caja negra). Como ilustración, supongamos que el adversario quiere crear una puerta trasera en las imágenes para que todas las imágenes con la puerta trasera se clasifiquen erróneamente a cierta clase objetivo. Por ejemplo, el adversario añade un símbolo especial (llamado gatillo) a cada imagen de un «señal de parada», los vuelve a etiquetar para «signo de rendimiento» y añade estas imágenes modificadas a los datos de entrenamiento. Como resultado, el modelo entrenado en este conjunto de datos modificado aprenderá que cualquier imagen que contenga este disparador debe clasificarse como «signo de rendimiento» sin importar de qué se trate la imagen. Si se implementa un modelo de puerta trasera de este tipo, el adversario puede engañar fácilmente al clasificador y causar accidentes al poner tal disparador en cualquier señal de tráfico real.

Los ejemplos contradictorios son entradas especializadas creadas con el propósito de confundir una red neuronal, lo que resulta en la clasificación errónea de una entrada dada. Estas notorias entradas son indistinguibles para el ojo humano, pero hacen que la red no identifique el contenido de la imagen. Hay varios tipos de tales ataques, sin embargo, aquí el enfoque está en el ataque del método de signo de gradiente rápido, que es un ataque no dirigido cuyo objetivo es causar una clasificación errónea a cualquier otra clase que la real. También es un ataque de caja blanca, lo que significa que el atacante tiene acceso completo a los parámetros del modelo que se está atacando para construir un ejemplo adversario.

Esquema

En esta sesión de laboratorio, recreará los riesgos de seguridad para los modelos de visión de IA y también mitigará contra el ataque. Específicamente, los estudiantes

  1. Mitigar la evasión con entrenamiento contradictorio;
  2. Mitigar el envenenamiento con la limpieza neuronal;
  3. Informe de precisión de ataque y precisión del modelo cuando se apliquen estas mitigaciones.


Los estudiantes formarán grupos de dos y trabajarán en equipo. Un grupo solo tiene que entregar una documentación/solución.

Reconocimientos

El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».