Käytännönläheinen: Yksityisyyden suojaavien tekniikoiden soveltaminen ja arviointi

Hallinnolliset tiedot

Otsikko	Puolustetaan jäsenyyttä vastaan ja syytetään Inference-hyökkäyksiä koneoppimismalleissa
Kesto	90 min
Moduuli	B
Oppitunnin tyyppi	Käytännöllinen
Keskittyminen	Eettinen – luotettava tekoäly
Aihe	Yksityisyyteen kohdistuvat hyökkäykset koneoppimiseen, vastatoimet

Avainsanoja

Yksityisyys, Koneoppiminen, Mitigaatio, Anonymisointi, Erilainen yksityisyys, Random Forest,

Oppimistavoitteet

Hanki käytännön taitoja lieventää yksityisyyden vuotoja soveltamalla Differential Privacy
Kuinka anonymisoida data-aineistot erillisellä yksityisyydellä
Kuinka kouluttaa ML-malleja erillisellä yksityisyydellä
Tietojen anonymisoinnin ja yksityisyyttä suojelevan mallikoulutuksen välisen eron ymmärtäminen
Yksityisyyden suojaamisen (anonymisointi) ja hyödyllisyyden (mallin laatu, tietojen tarkkuus) välinen kompromissi

Odotettu valmistelu

Oppimistapahtumat valmistuvat ennen

Pakollinen opiskelijoille

Python
Scikit
Pandat
TAIDE
Smartnoise-SDK
Virtual-env
Jäsenyyttä koskevat hyökkäykset
Attribuuttipäätelmä
Differentiaalinen yksityisyys
Mallin arviointi

Valinnainen opiskelijoille

Ei mitään.

Referenssejä ja taustaa opiskelijoille

Suositellaan opettajille

Koulu kaikille vuodenajoille luotettavasta koneoppimisesta

Oppituntimateriaalit

Ohjeita opettajille

Tämä laboratorioharjoitus on käytännön seuranta: Yksityisyyden suojaa ja tietosuojaa koskevat tarkastuskehykset, joissa kehitetään ML-malleihin kohdistuvia yksityisyydensuojahyökkäyksiä, kun taas nykyisessä oppimistapahtumassa pyritään lieventämään näitä hyökkäyksiä.

Koneoppimismalleja koulutetaan usein luottamuksellisiin (tai henkilökohtaisiin, arkaluonteisiin) tietoihin. Tällainen malli voi esimerkiksi ennustaa yksilön palkan muista ominaisuuksistaan (kuten koulutuksesta, asuinpaikasta, rodusta, sukupuolesta jne.). Yleinen väärinkäsitys on, että tällaisia malleja ei pidetä henkilötietoina, vaikka niiden koulutustiedot olisivatkin henkilökohtaisia (koulutustiedot voivat olla yksilötietojen keräämistä), koska ne on laskettu arkaluonteisista koulutustiedoista (esim. hermoverkostojen kaltevuuden keskiarvo tai entropia/tarrojen lukumäärä satunnaisissa metsissä) saaduista koostetuista tiedoista. Tämän laboratorioistunnon tavoitteena on osoittaa, että koneoppimismalleja voidaan pitää henkilötietoina, minkä vuoksi niiden käsittelyä säännellään hyvin todennäköisesti monissa maissa (esim. yleisessä tietosuoja-asetuksessa Euroopassa). Opiskelijat suunnittelevat tietosuojahyökkäyksiä testatakseen, jos koulutetut mallit vuotavat tietoja sen koulutustiedoista, ja myös lieventävät näitä hyökkäyksiä. Esimerkiksi jäsenyyden päätelmähyökkäyksillä pyritään havaitsemaan tietyn näytteen esiintyminen kohdemallin koulutustiedoissa malleista ja/tai sen tuloksista. Valkoisen laatikon hyökkäykset voivat käyttää sekä koulutettuja malleja (mukaan lukien sen parametrit) että mallin tuotosta (eli sen ennusteita), kun taas mustan laatikon malleilla on pääsy vain tietyn näytteen mallin ennusteisiin. Attribuuttipäätehyökkäykset pyrkivät ennustamaan puuttuvan herkän ominaisuuden koneoppimismallin tuotoksesta, joka on koulutettu sekä kaikki muut ominaisuudet.

Opettajia kehotetaan korostamaan yksityisyyden suojaamisen ja mallin laadun/datan tarkkuuden välistä kompromissia yleensä. Tarvittaessa opetussuunnitelmaan voidaan sisällyttää lisäharjoituksia tämän osoittamiseksi (mallin laadun arviointi epsilonin ja deltan mukaan).

Hahmotella

Tässä laboratorioistunnossa lievennät tietosuojariskejä fin AI -malleja. Erityisesti opiskelijat kehittävät kaksi hillintätekniikkaa:

Puolustus 1: luo synteettistä dataa Differential Privacy -takuulla ja tarkista
- kuinka paljon mallin laatu heikkenee, jos yksityisyyden suojaa suojaavia synteettisiä tietoja käytetään mallin kouluttamiseen alkuperäisten tietojen sijaan (riippuen yksityisyysparametrista epsilon)
- jos koulutus synteettisestä datasta alkuperäisen sijaan estää jäsenyyden ja määritä päätelmähyökkäyksen
Puolustus 2: kouluta malli Differential Privacy -takuulla ja tarkista
- kuinka paljon mallin laatu heikkenee, jos yksityisyyden suojaavaa mallia käytetään alkuperäisen ennustemallin sijaan (riippuen yksityisyysparametrista epsilon)
- jos yksityisyyttä säilyttävä malli estää jäsenhyökkäyksen
- miten yksityisyyttä säilyttävän mallin tarkkuus muuttuu verrattuna Defense 1 -malliin

Opiskelijat muodostavat kahden hengen ryhmiä ja työskentelevät tiiminä. Yhden ryhmän on toimitettava vain yksi dokumentaatio/ratkaisu.

Tunnustukset

Human-Centered AI Masters -ohjelmaa rahoitettiin Euroopan unionin Verkkojen Eurooppa -välineestä (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).

Opetussuunnitelma SURF:stä

Wikiwijs-sivu