Hallinnolliset tiedot
Otsikko | Puolustetaan jäsenyyttä vastaan ja syytetään Inference-hyökkäyksiä koneoppimismalleissa |
Kesto | 90 min |
Moduuli | B |
Oppitunnin tyyppi | Käytännöllinen |
Keskittyminen | Eettinen – luotettava tekoäly |
Aihe | Yksityisyyteen kohdistuvat hyökkäykset koneoppimiseen, vastatoimet |
Avainsanoja
Yksityisyys, Koneoppiminen, Mitigaatio, Anonymisointi, Erilainen yksityisyys, Random Forest,
Oppimistavoitteet
- Hanki käytännön taitoja lieventää yksityisyyden vuotoja soveltamalla Differential Privacy
- Kuinka anonymisoida data-aineistot erillisellä yksityisyydellä
- Kuinka kouluttaa ML-malleja erillisellä yksityisyydellä
- Tietojen anonymisoinnin ja yksityisyyttä suojelevan mallikoulutuksen välisen eron ymmärtäminen
- Yksityisyyden suojaamisen (anonymisointi) ja hyödyllisyyden (mallin laatu, tietojen tarkkuus) välinen kompromissi
Odotettu valmistelu
Oppimistapahtumat valmistuvat ennen
- Luento: Yksityisyys ja koneoppiminen
- Luento: Johdanto yksityisyyteen ja riskeihin
- Käytännönläheinen: Yksityisyyden suojaa ja tietosuojaa koskevat tarkastuspuitteet
- Luento: Päätöksentekopuut
- Luento: Mallin arviointi
- Luento: Johtopäätökset ja ennusteet
- Luento: Mallin asennus ja optimointi
- Käytännönläheinen: Mallin asennus ja optimointi
- Luento: Tietojen valmistelu ja tutkiminen
- Käytännönläheinen: Tietojen valmistelu ja tutkiminen
- Luento: Hermoverkot
- Luento: Yksityisyys
Pakollinen opiskelijoille
- Python
- Scikit
- Pandat
- TAIDE
- Smartnoise-SDK
- Virtual-env
- Jäsenyyttä koskevat hyökkäykset
- Attribuuttipäätelmä
- Differentiaalinen yksityisyys
- Mallin arviointi
Valinnainen opiskelijoille
Ei mitään.
Referenssejä ja taustaa opiskelijoille
Suositellaan opettajille
Oppituntimateriaalit
Ohjeita opettajille
Tämä laboratorioharjoitus on käytännön seuranta: Yksityisyyden suojaa ja tietosuojaa koskevat tarkastuskehykset, joissa kehitetään ML-malleihin kohdistuvia yksityisyydensuojahyökkäyksiä, kun taas nykyisessä oppimistapahtumassa pyritään lieventämään näitä hyökkäyksiä.
Koneoppimismalleja koulutetaan usein luottamuksellisiin (tai henkilökohtaisiin, arkaluonteisiin) tietoihin. Tällainen malli voi esimerkiksi ennustaa yksilön palkan muista ominaisuuksistaan (kuten koulutuksesta, asuinpaikasta, rodusta, sukupuolesta jne.). Yleinen väärinkäsitys on, että tällaisia malleja ei pidetä henkilötietoina, vaikka niiden koulutustiedot olisivatkin henkilökohtaisia (koulutustiedot voivat olla yksilötietojen keräämistä), koska ne on laskettu arkaluonteisista koulutustiedoista (esim. hermoverkostojen kaltevuuden keskiarvo tai entropia/tarrojen lukumäärä satunnaisissa metsissä) saaduista koostetuista tiedoista. Tämän laboratorioistunnon tavoitteena on osoittaa, että koneoppimismalleja voidaan pitää henkilötietoina, minkä vuoksi niiden käsittelyä säännellään hyvin todennäköisesti monissa maissa (esim. yleisessä tietosuoja-asetuksessa Euroopassa). Opiskelijat suunnittelevat tietosuojahyökkäyksiä testatakseen, jos koulutetut mallit vuotavat tietoja sen koulutustiedoista, ja myös lieventävät näitä hyökkäyksiä. Esimerkiksi jäsenyyden päätelmähyökkäyksillä pyritään havaitsemaan tietyn näytteen esiintyminen kohdemallin koulutustiedoissa malleista ja/tai sen tuloksista. Valkoisen laatikon hyökkäykset voivat käyttää sekä koulutettuja malleja (mukaan lukien sen parametrit) että mallin tuotosta (eli sen ennusteita), kun taas mustan laatikon malleilla on pääsy vain tietyn näytteen mallin ennusteisiin. Attribuuttipäätehyökkäykset pyrkivät ennustamaan puuttuvan herkän ominaisuuden koneoppimismallin tuotoksesta, joka on koulutettu sekä kaikki muut ominaisuudet.
Opettajia kehotetaan korostamaan yksityisyyden suojaamisen ja mallin laadun/datan tarkkuuden välistä kompromissia yleensä. Tarvittaessa opetussuunnitelmaan voidaan sisällyttää lisäharjoituksia tämän osoittamiseksi (mallin laadun arviointi epsilonin ja deltan mukaan).
Hahmotella
Tässä laboratorioistunnossa lievennät tietosuojariskejä fin AI -malleja. Erityisesti opiskelijat kehittävät kaksi hillintätekniikkaa:
- Puolustus 1: luo synteettistä dataa Differential Privacy -takuulla ja tarkista
- kuinka paljon mallin laatu heikkenee, jos yksityisyyden suojaa suojaavia synteettisiä tietoja käytetään mallin kouluttamiseen alkuperäisten tietojen sijaan (riippuen yksityisyysparametrista epsilon)
- jos koulutus synteettisestä datasta alkuperäisen sijaan estää jäsenyyden ja määritä päätelmähyökkäyksen
- Puolustus 2: kouluta malli Differential Privacy -takuulla ja tarkista
- kuinka paljon mallin laatu heikkenee, jos yksityisyyden suojaavaa mallia käytetään alkuperäisen ennustemallin sijaan (riippuen yksityisyysparametrista epsilon)
- jos yksityisyyttä säilyttävä malli estää jäsenhyökkäyksen
- miten yksityisyyttä säilyttävän mallin tarkkuus muuttuu verrattuna Defense 1 -malliin
Opiskelijat muodostavat kahden hengen ryhmiä ja työskentelevät tiiminä. Yhden ryhmän on toimitettava vain yksi dokumentaatio/ratkaisu.
Tunnustukset
Human-Centered AI Masters -ohjelmaa rahoitettiin Euroopan unionin Verkkojen Eurooppa -välineestä (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).