[tämä sivu wikissä][indeksi][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Käytännönläheinen: Yksityisyyden suojaavien tekniikoiden soveltaminen ja arviointi

Hallinnolliset tiedot

Otsikko Puolustetaan jäsenyyttä vastaan ja syytetään Inference-hyökkäyksiä koneoppimismalleissa
Kesto 90 min
Moduuli B
Oppitunnin tyyppi Käytännöllinen
Keskittyminen Eettinen – luotettava tekoäly
Aihe Yksityisyyteen kohdistuvat hyökkäykset koneoppimiseen, vastatoimet

Avainsanoja

Yksityisyys, Koneoppiminen, Mitigaatio, Anonymisointi, Erilainen yksityisyys, Random Forest,

Oppimistavoitteet

Odotettu valmistelu

Pakollinen opiskelijoille

  • Python
  • Scikit
  • Pandat
  • TAIDE
  • Smartnoise-SDK
  • Virtual-env
  • Jäsenyyttä koskevat hyökkäykset
  • Attribuuttipäätelmä
  • Differentiaalinen yksityisyys
  • Mallin arviointi

Valinnainen opiskelijoille

Ei mitään.

Oppituntimateriaalit

Ohjeita opettajille

Tämä laboratorioharjoitus on käytännön seuranta: Yksityisyyden suojaa ja tietosuojaa koskevat tarkastuskehykset, joissa kehitetään ML-malleihin kohdistuvia yksityisyydensuojahyökkäyksiä, kun taas nykyisessä oppimistapahtumassa pyritään lieventämään näitä hyökkäyksiä.

Koneoppimismalleja koulutetaan usein luottamuksellisiin (tai henkilökohtaisiin, arkaluonteisiin) tietoihin. Tällainen malli voi esimerkiksi ennustaa yksilön palkan muista ominaisuuksistaan (kuten koulutuksesta, asuinpaikasta, rodusta, sukupuolesta jne.). Yleinen väärinkäsitys on, että tällaisia malleja ei pidetä henkilötietoina, vaikka niiden koulutustiedot olisivatkin henkilökohtaisia (koulutustiedot voivat olla yksilötietojen keräämistä), koska ne on laskettu arkaluonteisista koulutustiedoista (esim. hermoverkostojen kaltevuuden keskiarvo tai entropia/tarrojen lukumäärä satunnaisissa metsissä) saaduista koostetuista tiedoista. Tämän laboratorioistunnon tavoitteena on osoittaa, että koneoppimismalleja voidaan pitää henkilötietoina, minkä vuoksi niiden käsittelyä säännellään hyvin todennäköisesti monissa maissa (esim. yleisessä tietosuoja-asetuksessa Euroopassa). Opiskelijat suunnittelevat tietosuojahyökkäyksiä testatakseen, jos koulutetut mallit vuotavat tietoja sen koulutustiedoista, ja myös lieventävät näitä hyökkäyksiä. Esimerkiksi jäsenyyden päätelmähyökkäyksillä pyritään havaitsemaan tietyn näytteen esiintyminen kohdemallin koulutustiedoissa malleista ja/tai sen tuloksista. Valkoisen laatikon hyökkäykset voivat käyttää sekä koulutettuja malleja (mukaan lukien sen parametrit) että mallin tuotosta (eli sen ennusteita), kun taas mustan laatikon malleilla on pääsy vain tietyn näytteen mallin ennusteisiin. Attribuuttipäätehyökkäykset pyrkivät ennustamaan puuttuvan herkän ominaisuuden koneoppimismallin tuotoksesta, joka on koulutettu sekä kaikki muut ominaisuudet.

Opettajia kehotetaan korostamaan yksityisyyden suojaamisen ja mallin laadun/datan tarkkuuden välistä kompromissia yleensä. Tarvittaessa opetussuunnitelmaan voidaan sisällyttää lisäharjoituksia tämän osoittamiseksi (mallin laadun arviointi epsilonin ja deltan mukaan).

Hahmotella

Tässä laboratorioistunnossa lievennät tietosuojariskejä fin AI -malleja. Erityisesti opiskelijat kehittävät kaksi hillintätekniikkaa:

  1. Puolustus 1: luo synteettistä dataa Differential Privacy -takuulla ja tarkista
    • kuinka paljon mallin laatu heikkenee, jos yksityisyyden suojaa suojaavia synteettisiä tietoja käytetään mallin kouluttamiseen alkuperäisten tietojen sijaan (riippuen yksityisyysparametrista epsilon)
    • jos koulutus synteettisestä datasta alkuperäisen sijaan estää jäsenyyden ja määritä päätelmähyökkäyksen
  2. Puolustus 2: kouluta malli Differential Privacy -takuulla ja tarkista
    • kuinka paljon mallin laatu heikkenee, jos yksityisyyden suojaavaa mallia käytetään alkuperäisen ennustemallin sijaan (riippuen yksityisyysparametrista epsilon)
    • jos yksityisyyttä säilyttävä malli estää jäsenhyökkäyksen
    • miten yksityisyyttä säilyttävän mallin tarkkuus muuttuu verrattuna Defense 1 -malliin

Opiskelijat muodostavat kahden hengen ryhmiä ja työskentelevät tiiminä. Yhden ryhmän on toimitettava vain yksi dokumentaatio/ratkaisu.

Tunnustukset

Human-Centered AI Masters -ohjelmaa rahoitettiin Euroopan unionin Verkkojen Eurooppa -välineestä (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).