Informations administratives
Titre | Adhésion et Attribute Inférence Attacks sur les modèles d’apprentissage automatique |
Durée | 90 min |
Module | B |
Type de leçon | Pratique |
Focus | Éthique — IA digne de confiance |
Sujet | Attaques de confidentialité sur l’apprentissage automatique |
Mots-clés
Audit, confidentialité de l’apprentissage automatique, test d’inférence d’adhésion, test d’inférence d’attribut,
Objectifs d’apprentissage
- Améliorer les compétences pratiques en matière d’audit des garanties de confidentialité (et de confidentialité) de l’apprentissage automatique
- Comment appliquer des attaques d’adhésion et attribuer des attaques d’inférence pour l’audit de confidentialité ML
Préparation prévue
Événements d’apprentissage à compléter avant
- Conférence: Confidentialité et apprentissage automatique
- Conférence: Introduction à la vie privée et aux risques
- Conférence: Évaluation du modèle
- Conférence: Inférence et prédiction
- Conférence: Montage et optimisation du modèle
- Pratique: Montage et optimisation du modèle
- Conférence: Préparation et exploration des données
- Pratique: Préparation et exploration des données
- Conférence: Réseaux neuronaux
- Conférence: Confidentialité
Obligatoire pour les étudiants
- Python
- Scikit
- Pandas
- ART
- Virtual-env
- Attaques d’adhésion
- Inférence d’attributs
- Évaluation du modèle
Optionnel pour les étudiants
Aucun.
Références et antécédents pour les étudiants
- Un aperçu de la vie privée dans l’apprentissage automatique
- Confidentialité des données et apprentissage automatique digne de confiance
- Attaques d’inférence d’adhésion contre les modèles d’apprentissage automatique
- Analysecomplète de la vie privée de l’apprentissage profond: Attaques passives et actives d’inférence de boîtes blanches contre l’apprentissage centralisé et fédéré
- Extraction de données d’entraînement à partir de grands modèles linguistiques
- Machine learning avec la confidentialité des membres en utilisant la régularisation contradictoire
- Le partageur secret: Évaluation et test de mémorisation involontaire dans les réseaux neuronaux
Recommandé pour les enseignants
Matériel de leçon
Instructions pour les enseignants
Cet exercice de laboratoire vise à développer les compétences pratiques des étudiants en audit des garanties de confidentialité des modèles d’apprentissage automatique. Les élèves doivent comprendre que les attaques d’adhésion supposent que la connaissance de l’échantillon cible soit testée, ce qui n’est pas toujours faisable. Pourtant, le succès de l’inférence d’adhésion peut prévoir des fuites plus graves dans le domaine de la vie privée à l’avenir.
Les modèles d’apprentissage automatique sont souvent formés sur des données confidentielles (ou personnelles, sensibles). Par exemple, un tel modèle peut prédire le salaire d’un individu à partir de ses autres attributs (comme l’éducation, le lieu de vie, la race, le sexe, etc.). Une idée fausse commune est que ces modèles ne sont pas considérés comme des données à caractère personnel même si leurs données de formation sont personnelles (en effet, les données de formation peuvent être la collecte d’enregistrements sur des individus), car elles sont calculées à partir d’informations agrégées dérivées des données d’entraînement sensibles (par exemple, la moyenne des gradients dans les réseaux de neurones, ou l’entropie/le nombre d’étiquettes dans les forêts aléatoires). L’objectif de cette session de laboratoire est de montrer que les modèles d’apprentissage automatique peuvent être considérés comme des données à caractère personnel et que leur traitement est donc très susceptible d’être réglementé dans de nombreux pays (par exemple par le RGPD en Europe). Les étudiants vont concevoir des attaques de confidentialité pour tester si les modèles formés fuitent des informations sur ses données d’entraînement, et également atténuer ces attaques. Par exemple, les attaques d’inférence d’adhésion visent à détecter la présence d’un échantillon donné dans les données d’entraînement d’un modèle cible à partir des modèles et/ou de sa sortie. Les attaques en boîte blanche peuvent accéder à la fois aux modèles formés (y compris ses paramètres) et à la sortie du modèle (c’est-à-dire ses prédictions), tandis que les modèles de boîtes noires ne peuvent accéder qu’aux prédictions du modèle pour un échantillon donné. Les attaques d’inférence d’attributs visent à prédire un attribut sensible manquant à partir de la sortie du modèle d’apprentissage automatique qui est formé ainsi que de tous les autres attributs.
Un événement d’apprentissage de suivi vise à atténuer ces menaces: Pratique: Application et évaluation des techniques de préservation de la vie privée
Esquisse
Dans cette session de laboratoire, vous mesurerez les risques de confidentialité pour les modèles d’IA et atténuerez également les attaques. Plus précisément, les étudiants
- former un modèle d’apprentissage automatique (Random Forest) sur l’ensemble de données Adulte pour prédire l’attribut de revenu binaire dans l’ensemble de données
- mesurer les risques liés à la vie privée en lançant une attaque d’adhésion sur le modèle formé pour vérifier si la présence d’un individu dans les données d’entraînement ne peut être détectée qu’à partir de la prédiction du modèle (attaque de boîte noire)
- lancer l’attaque d’inférence d’attribut sur le modèle formé pour vérifier si l’attribut manquant (sensible) peut être déduit de certaines données auxiliaires ressemblant aux données d’origine et à la sortie du modèle entraîné (attaque de boîte noire)
Les étudiants formeront des groupes de deux et travailleront en équipe. Un groupe ne doit remettre qu’une seule documentation/solution.
Remerciements
Le programme de master IA centré sur l’humain a été cofinancé par le mécanisme pour l’interconnexion en Europe de l’Union européenne dans le cadre de la subvention CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.