Verwaltungsinformationen
Titel | Mitgliedschafts- und Attributinferenzangriffe auf Machine Learning-Modelle |
Dauer | 90 min |
Modulen | B |
Unterrichtstyp | Praktisch |
Fokussierung | Ethisch – vertrauenswürdige KI |
Themenbereich | Datenschutz-Angriffe auf maschinelles Lernen |
Suchbegriffe
Auditing, Datenschutz des maschinellen Lernens, Membership Inference Test, Attribute Inference Test,
Lernziele
- Verbesserung der praktischen Fähigkeiten bei der Prüfung der Privatsphäre (und Vertraulichkeit) Garantien des maschinellen Lernens
- So wenden Sie Mitgliedschaftsangriffe an und Attribut Inference Attacken für ML Privacy Auditing
Erwartete Vorbereitung
Lernveranstaltungen, die vorab abgeschlossen werden müssen
- Vortrag: Privatsphäre und maschinelles Lernen
- Vortrag: Einführung in Privatsphäre und Risiko
- Vortrag: Modellbewertung
- Vortrag: Inferenz und Vorhersage
- Vortrag: Modellfitting und Optimierung
- Praktisch: Modellfitting und Optimierung
- Vortrag: Datenaufbereitung und -exploration
- Praktisch: Datenaufbereitung und -exploration
- Vortrag: Neuronale Netze
- Vortrag: Privatleben
Obligatorisch für Studenten
- Python
- Scikit
- Pandas
- KUNST
- Virtual-env
- Mitgliedschaftsangriffe
- Attributinferenz
- Modellbewertung
Optional für Studenten
Keine.
Referenzen und Hintergründe für Studierende
- Ein Überblick über den Datenschutz im maschinellen Lernen
- Datenschutz und vertrauenswürdiges maschinelles Lernen
- Mitgliedschaftsinferenzangriffe auf Machine Learning-Modelle
- Umfassende Datenschutzanalyse von Deep Learning: Passive und aktive White-Box-Inferenzangriffe auf zentralisiertes und föderiertes Lernen
- Extrahieren von Trainingsdaten aus großen Sprachmodellen
- Maschinelles Lernen mit Privatsphäre der Mitgliedschaft durch Adversarial Regularization
- Der geheime Sharer: Evaluierung und Erprobung von unbeabsichtigter Erinnerung an neuronale Netze
Empfohlen für Lehrer
Unterrichtsmaterialien
Anleitung für Lehrer
Diese Laborübung zielt darauf ab, die praktischen Fähigkeiten der Studenten zu entwickeln, um die Datenschutzgarantien von Machine Learning-Modellen zu überprüfen. Die Schüler sollten verstehen, dass Mitgliedschaftsangriffe davon ausgehen, dass das Wissen der Zielstichprobe getestet werden muss, was nicht immer machbar ist. Dennoch kann der Erfolg der Mitgliedschaftsfolgerung in Zukunft schwerwiegendere Datenschutzlecks antizipieren.
Machine Learning-Modelle werden oft auf vertrauliche (oder persönliche, sensible) Daten geschult. Zum beispiel kann ein solches modell das gehalt eines individuums aus seinen anderen attributen (wie bildung, leben, rasse, geschlecht usw.) vorhersagen. Ein häufiges Missverständnis ist, dass solche Modelle nicht als personenbezogene Daten angesehen werden, selbst wenn ihre Trainingsdaten personenbezogen sind (in der Tat können Trainingsdaten die Erfassung von Aufzeichnungen über Einzelpersonen sein), da sie aus aggregierten Informationen berechnet werden, die aus den sensiblen Trainingsdaten stammen (z. B. Durchschnitt der Gradienten in neuronalen Netzen oder Entropie/Anzahl von Etiketten in zufälligen Wäldern). Ziel dieser Laborsitzung ist es, zu zeigen, dass Machine Learning-Modelle als personenbezogene Daten angesehen werden können und deren Verarbeitung daher in vielen Ländern sehr wahrscheinlich reguliert wird (z. B. durch die DSGVO in Europa). Die Schüler entwerfen Datenschutzangriffe, um zu testen, ob die trainierten Modelle Informationen über ihre Trainingsdaten lecken und diese Angriffe auch mildern. Zum Beispiel zielen Mitgliedschaftsinferenzangriffe darauf ab, das Vorhandensein einer bestimmten Probe in den Trainingsdaten eines Zielmodells aus den Modellen und/oder dessen Ausgabe zu erkennen. White-Box-Angriffe können sowohl auf die trainierten Modelle (einschließlich ihrer Parameter) als auch auf die Ausgabe des Modells (d. h. seine Vorhersagen) zugreifen, während Black-Box-Modelle nur auf die Vorhersagen des Modells für ein bestimmtes Sample zugreifen können. Attribut-Inferenzangriffe zielen darauf ab, ein fehlendes sensibles Attribut aus der Ausgabe des maschinellen Lernmodells, das auf allen anderen Attributen trainiert wird, vorherzusagen.
Bei einem Follow-up-Learning-Event geht es darum, diese Bedrohungen abzumildern: Praktisch: Anwendung und Bewertung von datenschutzerhaltenden Techniken
Gliederung
In dieser Laborsitzung messen Sie Datenschutzrisiken für KI-Modelle und mildern auch die Angriffe. Insbesondere werden die Schüler
- trainieren Sie ein maschinelles Lernmodell (Random Forest) auf dem Datensatz für Erwachsene, um das binäre Einkommensattribut im Datensatz vorherzusagen
- messen Sie Datenschutzrisiken, indem Sie einen Mitgliedschaftsangriff auf das trainierte Modell starten, um zu überprüfen, ob die Anwesenheit einer Person in den Trainingsdaten nur aus der Vorhersage des Modells erkannt werden kann (Black-Box-Angriff)
- starten Sie Attributinferenzangriff auf das trainierte Modell, um zu überprüfen, ob das fehlende (sensitive) Attribut aus einigen Hilfsdaten abgeleitet werden kann, die den ursprünglichen Daten und der Ausgabe des trainierten Modells ähneln (Black-Box-Angriff)
Die Schüler bilden Gruppen zu zweit und arbeiten als Team. Eine Gruppe muss nur eine Dokumentation/Lösung einreichen.
Danksagung
Das Human-Centered AI Masters-Programm wurde von der Fazilität „Connecting Europe“ der Europäischen Union im Rahmen des Zuschusses „CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068“ kofinanziert.