Práctica: Marcos de auditoría de privacidad y protección de datos

Información administrativa

Título	Ataques de Membresía y Inferencia de Atributos a Modelos de Aprendizaje Automático
Duración	90 min
Módulo	B
Tipo de lección	Practico
Enfoque	Ética — IA confiable
Tema	Ataques de privacidad en el aprendizaje automático

Keywords

Auditoría, Privacidad del aprendizaje automático, Prueba de inferencia de membresía, Prueba de inferencia de atributos,

Objetivos de aprendizaje

Mejorar las habilidades prácticas de auditar las garantías de privacidad (y confidencialidad) del aprendizaje automático
Cómo aplicar ataques de membresía y ataques de inferencia de atributos para la auditoría de privacidad de ML

Preparación prevista

Eventos de aprendizaje que se completarán antes

Obligatorio para los estudiantes

Python
Scikit
Pandas
ARTE
virtual-env
Ataques de membresía
Inferencia de atributos
Evaluación del modelo

Opcional para estudiantes

Ninguno.

Referencias y antecedentes para estudiantes

Material didáctico

Instrucciones para profesores

Este ejercicio de laboratorio tiene como objetivo desarrollar las habilidades prácticas de los estudiantes de auditar las garantías de privacidad de los modelos de Machine Learning. Los estudiantes deben entender que los ataques de membresía suponen el conocimiento de la muestra objetivo a ser probado, lo que no siempre es factible. Aún así, el éxito de la inferencia de membresía puede anticipar fugas de privacidad más graves en el futuro.

Los modelos de aprendizaje automático a menudo se capacitan en datos confidenciales (o personales, sensibles). Por ejemplo, tal modelo puede predecir el salario de un individuo a partir de sus otros atributos (como educación, lugar de vida, raza, sexo, etc.). Un error común es que tales modelos no se consideran datos personales, incluso si sus datos de formación son personales (de hecho, los datos de formación pueden ser la recopilación de registros sobre individuos), ya que se calculan a partir de información agregada derivada de los datos de formación sensibles (por ejemplo, el promedio de gradientes en redes neuronales o la entropía/conteo de etiquetas en bosques aleatorios). El objetivo de esta sesión de laboratorio es mostrar que los modelos de aprendizaje automático pueden considerarse como datos personales y, por lo tanto, es muy probable que su procesamiento esté regulado en muchos países (por ejemplo, por GDPR en Europa). Los estudiantes diseñarán ataques de privacidad para probar si los modelos entrenados filtran información sobre sus datos de entrenamiento, y también mitigarán estos ataques. Por ejemplo, los ataques de inferencia de membresía tienen como objetivo detectar la presencia de una muestra dada en los datos de entrenamiento de un modelo objetivo a partir de los modelos o su salida. Los ataques de caja blanca pueden acceder tanto a los modelos entrenados (incluidos sus parámetros) como a la salida del modelo (es decir, a sus predicciones), mientras que los modelos de caja negra solo pueden acceder a las predicciones del modelo para una muestra dada. Los ataques de inferencia de atributos tienen como objetivo predecir un atributo sensible faltante de la salida del modelo de aprendizaje automático que está entrenado, así como todos los demás atributos.

Un evento de aprendizaje de seguimiento trata de mitigar estas amenazas: Práctica: Aplicación y evaluación de técnicas de preservación de la privacidad

Esquema

En esta sesión de laboratorio, medirá los riesgos de privacidad para los modelos de IA y también mitigará los ataques. Específicamente, los estudiantes

entrenar un modelo de aprendizaje automático (Random Forest) en el conjunto de datos para adultos para predecir el atributo de ingreso binario en el conjunto de datos
medir los riesgos de privacidad mediante el lanzamiento de un ataque de membresía en el modelo entrenado para comprobar si la presencia de alguna persona en los datos de entrenamiento solo puede detectarse a partir de la predicción del modelo (ataque de caja negra)
iniciar ataque de inferencia de atributos en el modelo entrenado para comprobar si el atributo faltante (sensible) se puede inferir a partir de algunos datos auxiliares que se asemejan a los datos originales y la salida del modelo entrenado (ataque de caja negra)

Los estudiantes formarán grupos de dos y trabajarán en equipo. Un grupo solo tiene que entregar una documentación/solución.

Reconocimientos

El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».

Plan de lecciones sobre SURF

Página de Wikiwijs