Información administrativa
Título | Ataques de Membresía y Inferencia de Atributos a Modelos de Aprendizaje Automático |
Duración | 90 min |
Módulo | B |
Tipo de lección | Practico |
Enfoque | Ética — IA confiable |
Tema | Ataques de privacidad en el aprendizaje automático |
Keywords
Auditoría, Privacidad del aprendizaje automático, Prueba de inferencia de membresía, Prueba de inferencia de atributos,
Objetivos de aprendizaje
- Mejorar las habilidades prácticas de auditar las garantías de privacidad (y confidencialidad) del aprendizaje automático
- Cómo aplicar ataques de membresía y ataques de inferencia de atributos para la auditoría de privacidad de ML
Preparación prevista
Eventos de aprendizaje que se completarán antes
- Conferencia: Privacidad y aprendizaje automático
- Conferencia: Introducción a la privacidad y al riesgo
- Conferencia: Evaluación del modelo
- Conferencia: Inferencia y predicción
- Conferencia: Montaje y optimización del modelo
- Práctica: Montaje y optimización del modelo
- Conferencia: Preparación y Exploración de Datos
- Práctica: Preparación y Exploración de Datos
- Conferencia: Redes neuronales
- Conferencia: Privacidad
Obligatorio para los estudiantes
- Python
- Scikit
- Pandas
- ARTE
- virtual-env
- Ataques de membresía
- Inferencia de atributos
- Evaluación del modelo
Opcional para estudiantes
Ninguno.
Referencias y antecedentes para estudiantes
- Una visión general de la privacidad en el aprendizaje automático
- Privacidad de datos y aprendizaje automático confiable
- Ataques de inferencia de membresía contra modelos de aprendizaje automático
- Análisis integral de la privacidad del aprendizaje profundo: Ataques pasivos y activos de inferencia de caja blanca contra el aprendizaje centralizado y federado
- Extracción de datos de formación de grandes modelos lingüísticos
- Aprendizaje automático con privacidad de membresía utilizando la regularización adversarial
- El copartícipe secreto: Evaluar y probar la memorización involuntaria en redes neuronales
Recomendado para profesores
Instrucciones para profesores
Este ejercicio de laboratorio tiene como objetivo desarrollar las habilidades prácticas de los estudiantes de auditar las garantías de privacidad de los modelos de Machine Learning. Los estudiantes deben entender que los ataques de membresía suponen el conocimiento de la muestra objetivo a ser probado, lo que no siempre es factible. Aún así, el éxito de la inferencia de membresía puede anticipar fugas de privacidad más graves en el futuro.
Los modelos de aprendizaje automático a menudo se capacitan en datos confidenciales (o personales, sensibles). Por ejemplo, tal modelo puede predecir el salario de un individuo a partir de sus otros atributos (como educación, lugar de vida, raza, sexo, etc.). Un error común es que tales modelos no se consideran datos personales, incluso si sus datos de formación son personales (de hecho, los datos de formación pueden ser la recopilación de registros sobre individuos), ya que se calculan a partir de información agregada derivada de los datos de formación sensibles (por ejemplo, el promedio de gradientes en redes neuronales o la entropía/conteo de etiquetas en bosques aleatorios). El objetivo de esta sesión de laboratorio es mostrar que los modelos de aprendizaje automático pueden considerarse como datos personales y, por lo tanto, es muy probable que su procesamiento esté regulado en muchos países (por ejemplo, por GDPR en Europa). Los estudiantes diseñarán ataques de privacidad para probar si los modelos entrenados filtran información sobre sus datos de entrenamiento, y también mitigarán estos ataques. Por ejemplo, los ataques de inferencia de membresía tienen como objetivo detectar la presencia de una muestra dada en los datos de entrenamiento de un modelo objetivo a partir de los modelos o su salida. Los ataques de caja blanca pueden acceder tanto a los modelos entrenados (incluidos sus parámetros) como a la salida del modelo (es decir, a sus predicciones), mientras que los modelos de caja negra solo pueden acceder a las predicciones del modelo para una muestra dada. Los ataques de inferencia de atributos tienen como objetivo predecir un atributo sensible faltante de la salida del modelo de aprendizaje automático que está entrenado, así como todos los demás atributos.
Un evento de aprendizaje de seguimiento trata de mitigar estas amenazas: Práctica: Aplicación y evaluación de técnicas de preservación de la privacidad
Esquema
En esta sesión de laboratorio, medirá los riesgos de privacidad para los modelos de IA y también mitigará los ataques. Específicamente, los estudiantes
- entrenar un modelo de aprendizaje automático (Random Forest) en el conjunto de datos para adultos para predecir el atributo de ingreso binario en el conjunto de datos
- medir los riesgos de privacidad mediante el lanzamiento de un ataque de membresía en el modelo entrenado para comprobar si la presencia de alguna persona en los datos de entrenamiento solo puede detectarse a partir de la predicción del modelo (ataque de caja negra)
- iniciar ataque de inferencia de atributos en el modelo entrenado para comprobar si el atributo faltante (sensible) se puede inferir a partir de algunos datos auxiliares que se asemejan a los datos originales y la salida del modelo entrenado (ataque de caja negra)
Los estudiantes formarán grupos de dos y trabajarán en equipo. Un grupo solo tiene que entregar una documentación/solución.
Reconocimientos
El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».