Administrativ information
Titel | Medlemskap och Attribut Inference Attacks on Machine Learning Models |
Varaktighet | 90 min |
Modul | B |
Typ av lektion | Praktiskt |
Fokus | Etiskt – tillförlitlig AI |
Ämne | Integritetsattacker på maskininlärning |
Nyckelord
Revision, Integritet för maskininlärning, Medlemskapsslutsatser, Attribute inference test,
Lärandemål
- Förbättra de praktiska färdigheterna i att granska den personliga integriteten (och sekretess) garantierna för maskininlärning
- Hur man använder medlemsattacker och attribut inference attacker för ML integritetsrevision
Förväntad förberedelse
Lärande händelser som ska slutföras innan
- Föreläsning: Integritet och maskininlärning
- Föreläsning: Introduktion till integritet och risk
- Föreläsning: Modellutvärdering
- Föreläsning: Slutsats och förutsägelse
- Föreläsning: Modellmontering och optimering
- Praktiskt: Modellmontering och optimering
- Föreläsning: Dataförberedelse och undersökning
- Praktiskt: Dataförberedelse och undersökning
- Föreläsning: Neurala nätverk
- Föreläsning: Sekretess
Obligatoriskt för studenter
- Python
- Scikit
- Pandor
- KONST
- Virtual-env
- Medlemsangrepp
- Attribut inferens
- Modellutvärdering
Valfritt för studenter
Ingen.
Referenser och bakgrund för studenter
- En översikt över integritet i maskininlärning
- Datasekretess och tillförlitlig maskininlärning
- Medlemsslutsatser mot maskininlärningsmodeller
- Omfattande integritetsanalys av djupinlärning: Passiva och aktiva white-box-inferensattacker mot centraliserat och federerat lärande
- Extrahera träningsdata från stora språkmodeller
- Maskininlärning med medlemskapssekretess med hjälp av kontradiktorisk reglering
- Den hemliga delägaren: Utvärdera och testa oavsiktlig memorisering i neurala nätverk
Rekommenderas för lärare
Lektionsmaterial
Instruktioner för lärare
Denna laboratorieövning syftar till att utveckla de praktiska färdigheterna hos studenter att granska integritetsgarantierna för maskininlärningsmodeller. Eleverna bör förstå att medlemskapsattacker förutsätter kunskapen om målprovet som ska testas vilket inte alltid är möjligt. Ändå kan framgången för medlemskapet förutse allvarligare integritetsläckage i framtiden.
Maskininlärningsmodeller utbildas ofta på konfidentiella (eller personliga, känsliga) uppgifter. Till exempel kan en sådan modell förutsäga lönen för en individ från dess andra attribut (t.ex. utbildning, bostad, ras, kön, etc.). En vanlig missuppfattning är att sådana modeller inte betraktas som personuppgifter även om deras träningsdata är personliga (utbildningsuppgifter kan vara insamling av register över enskilda personer), eftersom de beräknas utifrån aggregerad information som härrör från känsliga utbildningsdata (t.ex. medelgradienter i neurala nätverk eller entropi/räkning av etiketter i slumpmässiga skogar). Målet med denna labbsession är att visa att maskininlärningsmodeller kan betraktas som personuppgifter och därför är det mycket troligt att behandlingen av dem kommer att regleras i många länder (t.ex. av GDPR i Europa). Eleverna kommer att utforma integritetsattacker för att testa om de utbildade modellerna läcker information om sina träningsdata, och även mildra dessa attacker. Till exempel syftar medlemsinferensattacker till att upptäcka förekomsten av ett givet prov i träningsdata för en målmodell från modellerna och/eller dess utdata. White-box attacker kan komma åt både de utbildade modellerna (inklusive dess parametrar) och utdata av modellen (dvs. dess förutsägelser), medan black-box modeller endast kan komma åt förutsägelser av modellen för ett givet prov. Attributinferensattacker syftar till att förutsäga ett saknat känsligt attribut från utdata från maskininlärningsmodellen som tränas på såväl som alla andra attribut.
En uppföljande inlärningshändelse handlar om att minska dessa hot: Praktiskt: Tillämpa och utvärdera integritetsbevarande tekniker
Konturer
I denna labbsession kommer du att mäta integritetsrisker för AI-modeller och även mildra attackerna. I synnerhet kommer studenterna att
- träna en maskininlärningsmodell (Random Forest) på vuxendatauppsättningen för att förutsäga det binära inkomstattributet i datamängden
- mät integritetsrisker genom att starta ett medlemsangrepp på den utbildade modellen för att kontrollera om närvaron av någon individ i träningsdata kan upptäckas endast från förutsägelse av modellen (black-box attack)
- starta attributinferensattack på den utbildade modellen för att kontrollera om det saknade (känsliga) attributet kan härledas från vissa hjälpdata som liknar originaldata och utdata från den utbildade modellen (black-box attack)
Eleverna kommer att bilda grupper om två och arbeta som ett team. En grupp behöver bara lämna in en dokumentation/lösning.
Erkännanden
Masterprogrammet Human-Centered AI har samfinansierats av Fonden för ett sammanlänkat Europa i Europeiska unionen inom ramen för Grant CEF-TC-2020–1 Digital Skills 2020 EU-IA-0068.