Informations administratives
Titre | Introduction à la confidentialité des données |
Durée | 135 min |
Module | B |
Type de leçon | Conférence |
Focus | Éthique — IA digne de confiance |
Sujet | Confidentialité des données |
Mots-clés
Confidentialité des données, Risque de confidentialité, Données personnelles, Données sensibles, Profiling, Suivi, Anonymisation, Confidentialité dans l’apprentissage automatique, RPT, Pseudonymisation, identificateurs directs et indirects,
Objectifs d’apprentissage
- Obtenir une compréhension générale de la notion de vie privée.
- Comprendre les difficultés et les pièges de l’analyse de la confidentialité des données et de la détection des données personnelles.
- Comprendre le compromis entre l’anonymisation et l’utilitaire de données (pas de déjeuner gratuit).
- Comprendre la différence entre la sécurité des données et la confidentialité des données.
- Apprenez les principes de base de la communication anonyme et des RPT.
- Discerner, étudier et discuter des risques clés introduits par les modèles d’IA et d’apprentissage automatique
Préparation prévue
Événements d’apprentissage à compléter avant
Obligatoire pour les étudiants
- Algèbre linéaire de base,
- Apprentissage automatique de base
Optionnel pour les étudiants
Aucun.
Références et antécédents pour les étudiants
Recommandé pour les enseignants
- Règlement général sur la protection des données (RGPD)
- Données à caractère personnel
- Vérification des requêtes
- TOR
- Suivi du web
- Exposé! Une enquête sur les attaques sur les données privées
- Différence de confidentialité
Instructions pour les enseignants
Cette conférence donne un aperçu de la confidentialité des données. Il se concentre sur différents problèmes de confidentialité du suivi Web, du partage de données et de l’apprentissage automatique, ainsi que sur certaines techniques d’atténuation. L’objectif est de fournir les connaissances essentielles (techniques) nécessaires à l’identification et à la protection des données à caractère personnel. Le cours met en lumière les raisons pour lesquelles il est difficile d’obtenir des informations utiles socialement ou individuellement sur les personnes sans révéler d’informations personnelles. Ces compétences deviennent un must pour chaque ingénieur de données/logiciels et délégué à la protection des données traitant de données personnelles et sensibles, et sont également requises par le règlement général européen sur la protection des données (RGPD).
Esquisse
Durée (min) | Description | Concepts |
---|---|---|
20 | Qu’est-ce que la vie privée? | La vie privée en tant que droit fondamental. Histoire ou vie privée. Importance de la vie privée. Illustration des fuites de données; combien de personnes partagent-elles directement ou indirectement? Pourquoi la vie privée est-elle un problème? Importance de la législation et des solutions techniques (PETS). |
15 | Définition des données personnelles, sensibles et confidentielles | Définition et données personnelles dans le RGPD. Identificateurs directs vs indirects. Définition de l’identifiabilité. Exemples illustratifs. Définition des données sensibles dans le RGPD, exemples. Données personnelles vs sensibles vs confidentielles. |
20 | Illustration de fuite de données personnelles: Repérage | But du suivi. Suivi web, empreintes digitales du navigateur, suivi WiFi, suivi par ultrasons, suivi souterrain à travers un capteur baromètre, inférence de localisation de l’utilisation de la batterie, unicité des données de localisation |
20 | Profilage psychologique | Modèle océanique. Inférence des traits de personnalité OCEAN à partir de données personnelles. Manipulation à travers des traits de personnalité, des publicités politiques. Menace de profilage psychologique, sécurité cognitive. |
20 | Anonymisation | Les types de données, différents types nécessitent différentes techniques d’anonymisation. Pseudo-anonymisation, désanonymisation, réidentification. Quasi-identificateurs, k-anonymat. Généralisation, suppression, regroupement en tant que techniques générales d’anonymisation k. Anonymisation vs. utilitaire. Impossibilité d’anonymisation sans perte d’utilité. Problèmes de k-anonymisation (connaissance de fond, attaque d’intersection). Anonymisation des données agrégées; pourquoi l’agrégation n’empêche pas la réidentification. Interroger l’audit. Audit des requêtes SUM sur les reals. Dureté de l’audit des requêtes. Interrogez la perturbation, la confidentialité différentielle. |
20 | Communication anonyme | Problème de communication anonyme. Expéditeur, anonymat du receveur, dissociabilité. Anonymiser le proxy. Chaum MIX, mixnet. Tor, illustration de TOR. Configuration du circuit dans TOR. Politiques de sortie. Quelques attaques contre TOR. |
20 | Confidentialité dans l’IA | Principaux problèmes de confidentialité dans l’apprentissage automatique; inférence d’adhésion, extraction du modèle, équité. Source des problèmes d’équité (biais dans la collecte/l’étiquetage des données de formation, sélection des caractéristiques, différentes interprétations culturelles de l’équité). Attributs protégés. Équité par cécité, codages redondants (attributs proxy). |
5 | Conclusions | Pourquoi la vie privée est-elle importante? Pourquoi la surveillance est un problème? Pourquoi quelqu’un a-t-il quelque chose à cacher? Pourquoi la vie privée est difficile? Quelles sont les compétences d’un délégué à la protection des données? Pourquoi y a-t-il un besoin de délégués à la protection des données? |
Remerciements
Le programme de master IA centré sur l’humain a été cofinancé par le mécanisme pour l’interconnexion en Europe de l’Union européenne dans le cadre de la subvention CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.