Administratieve informatie
Titel | Lidmaatschap en Attribute Inferentieaanvallen op Machine Learning Modellen |
Looptijd | 90 min |
Module | B |
Type les | Praktisch |
Focus | Ethisch — betrouwbare AI |
Onderwerp | Privacyaanvallen op machine learning |
Sleutelwoorden
Auditing, Privacy of Machine Learning, Membership inference test, Attribute inference test,
Leerdoelen
- De praktische vaardigheden van het controleren van de privacy (en vertrouwelijkheid) waarborgen van machine learning verbeteren
- Hoe lidmaatschapsaanvallen toe te passen en gevolgtrekkingsaanvallen toe te passen voor ML-privacyauditing
Verwachte voorbereiding
Leren van gebeurtenissen die moeten worden voltooid voordat
- Lezing: Privacy en machine learning
- Lezing: Inleiding tot privacy en risico’s
- Lezing: Modelevaluatie
- Lezing: Gevolgtrekking en voorspelling
- Lezing: Modelmontage en optimalisatie
- Praktisch: Modelmontage en optimalisatie
- Lezing: Gegevensvoorbereiding en -verkenning
- Praktisch: Gegevensvoorbereiding en -verkenning
- Lezing: Neurale netwerken
- Lezing: Privacy
Verplicht voor studenten
- Python
- Scikit
- Panda’s
- KUNST
- virtueel-env
- Aanvallen op lidmaatschap
- Gevolgtrekking van attribuut
- Modelevaluatie
Optioneel voor studenten
Geen.
Referenties en achtergronden voor studenten
- Een overzicht van privacy in machine learning
- Gegevensprivacy en betrouwbare machine learning
- Gevolgtrekkingsaanvallen op machinaal leren
- Uitgebreide privacy analyse van deep learning: Passieve en actieve whitebox-inferentieaanvallen tegen gecentraliseerd en federatief leren
- Het extraheren van trainingsgegevens uit grote taalmodellen
- Machine learning met lidmaatschapsprivacy door middel van adversariële regularisatie
- De geheime sharer: Het evalueren en testen van onbedoelde memorisatie in neurale netwerken
Aanbevolen voor docenten
Instructies voor docenten
Deze laboratoriumoefening is bedoeld om de praktische vaardigheden van studenten te ontwikkelen om de privacygaranties van Machine Learning-modellen te controleren. Studenten moeten begrijpen dat lidmaatschapsaanvallen veronderstellen dat de kennis van het doelmonster wordt getest, wat niet altijd haalbaar is. Toch kan het succes van de gevolgtrekking van het lidmaatschap in de toekomst op meer ernstige privacylekken anticiperen.
Machine learning modellen worden vaak getraind op vertrouwelijke (of persoonlijke, gevoelige) gegevens. Een dergelijk model kan bijvoorbeeld het salaris van een individu voorspellen op basis van zijn andere kenmerken (zoals onderwijs, woonruimte, ras, geslacht, enz.). Een veel voorkomende misvatting is dat dergelijke modellen niet als persoonsgegevens worden beschouwd, zelfs als hun opleidingsgegevens persoonlijk zijn (in feite kunnen trainingsgegevens het verzamelen van gegevens over personen zijn), omdat ze worden berekend op basis van geaggregeerde informatie die is afgeleid van de gevoelige trainingsgegevens (bv. gemiddelde gradiënten in neurale netwerken, of entropie/telling van labels in willekeurige bossen). Het doel van deze labsessie is om aan te tonen dat machine learning modellen kunnen worden beschouwd als persoonsgegevens en dat de verwerking ervan dus zeer waarschijnlijk in veel landen zal worden gereguleerd (bijvoorbeeld door de AVG in Europa). Studenten zullen privacyaanvallen ontwerpen om te testen of de getrainde modellen informatie over zijn trainingsgegevens lekken en deze aanvallen ook beperken. Bijvoorbeeld, aanvallen op lidmaatschapsinferenties hebben tot doel de aanwezigheid van een bepaald monster in de trainingsgegevens van een doelmodel te detecteren aan de hand van de modellen en/of de output ervan. White-box-aanvallen hebben toegang tot zowel de getrainde modellen (inclusief de parameters) als de output van het model (d.w.z. de voorspellingen), terwijl black-box-modellen alleen toegang hebben tot de voorspellingen van het model voor een bepaald monster. Attribuut inferentie-aanvallen zijn bedoeld om een ontbrekende gevoelige eigenschap te voorspellen van de output van het machine learning model dat is getraind op, evenals alle andere attributen.
Een follow-up learning event gaat over het beperken van deze bedreigingen: Praktisch: Toepassen en evalueren van privacy-behoud technieken
Omtrek
In deze labsessie meet je privacyrisico’s voor AI-modellen en mitigeert u ook de aanvallen. In het bijzonder zullen de studenten
- Train een machine learning model (Random Forest) op de Adult dataset om het binaire inkomen attribuut in de dataset te voorspellen
- privacyrisico’s meten door een lidmaatschapsaanval op het getrainde model te starten om te controleren of de aanwezigheid van een persoon in de trainingsgegevens alleen kan worden gedetecteerd aan de hand van de voorspelling van het model (black-box-aanval)
- lanceer attribuut-inferentieaanval op het getrainde model om te controleren of het ontbrekende (gevoelige) attribuut kan worden afgeleid uit sommige hulpgegevens die lijken op de originele gegevens en de uitvoer van het getrainde model (black-box aanval)
Studenten vormen groepen van twee en werken als een team. Eén groep hoeft slechts één documentatie/oplossing in te dienen.
Erkenningen
Het Human-Centered AI Masters-programma werd mede gefinancierd door de Connecting Europe Facility van de Europese Unie in het kader van de subsidie CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.