Hallinnolliset tiedot
Otsikko | Koneoppimismallien kiertäminen ja myrkytys |
Kesto | 90 min |
Moduuli | B |
Oppitunnin tyyppi | Käytännöllinen |
Keskittyminen | Eettinen – luotettava tekoäly |
Aihe | Koneoppimisen välttäminen ja myrkytys |
Avainsanoja
Kontradiktorinen esimerkki, Takaovi, Kestävyys, ML-turvatarkastus,
Oppimistavoitteet
- Hanki käytännön taitoja koneoppimismallien kestävyyden tarkastamiseksi
- Miten toteuttaa veronkierto (kontradiktoriset esimerkit) ja myrkytys/takaoven hyökkäykset
- Arvioida näiden hyökkäysten aiheuttamaa mallin heikkenemistä
Odotettu valmistelu
Oppimistapahtumat valmistuvat ennen
- Luento: Turvallisuus ja kestävyys
- Käytännönläheinen: Rahanpesun torjunnan turvallisuuden ja luotettavuuden parantaminen
- Luento: Mallin arviointi
- Luento: Johtopäätökset ja ennusteet
- Luento: Mallin asennus ja optimointi
- Käytännönläheinen: Mallin asennus ja optimointi
- Luento: Tietojen valmistelu ja tutkiminen
- Käytännönläheinen: Tietojen valmistelu ja tutkiminen
- Luento: Hermoverkot
Pakollinen opiskelijoille
- Python,
- Scikit,
- Pandat,
- TAIDE,
- Virtual-env,
- Takaovet,
- Myrkytys,
- Kontradiktoriset esimerkit,
- Mallin arviointi
Valinnainen opiskelijoille
Ei mitään.
Referenssejä ja taustaa opiskelijoille
- HCAIM-verkkoseminaari eurooppalaisesta lähestymistavasta kohti luotettavaa, turvallista ja luotettavaa tekoälyä (saatavana YouTubessa)
- Kontradiktoriset esimerkit ja kontradiktorinen koulutus
- Kontradiktorinen kestävyys – teoria ja käytäntö
- Käytännön Black-Box-hyökkäykset koneoppimista vastaan
- Hermoverkkojen vahvuuden arviointi
- Myrkkysammakot! Kohdennetut puhtaan merkin myrkytyshyökkäykset hermoverkkoihin
Suositellaan opettajille
Oppituntimateriaalit
Ohjeita opettajille
Koneoppimismalleihin luotetaan yhä enemmän päätösten tekemiseen eri aloilla, mutta tällaisia malleja käyttävien järjestelmien turvallisuudesta on tullut kasvava huolenaihe. Erityisesti ML-malleja koulutetaan usein mahdollisesti epäluotettavista lähteistä peräisin olevien tietojen perusteella, mikä antaa vastustajille mahdollisuuden manipuloida niitä asettamalla huolellisesti valmistettuja näytteitä koulutusjoukkoon. Viimeaikainen työ on osoittanut, että tämäntyyppinen hyökkäys, jota kutsutaan myrkytyshyökkäykseksi, sallii vastustajien lisätä takaovia tai troijalaisia malliin, mikä mahdollistaa haitallisen käyttäytymisen yksinkertaisilla ulkoisilla takaoven laukaisimilla päättelyaikana, ilman suoraa pääsyä itse malliin (musta laatikko hyökkäys). Kuvituksena oletetaan, että vastustaja haluaa luoda takaoven kuviin, jotta kaikki takaoven kuvat luokitellaan väärin tiettyyn kohdeluokkaan. Esimerkiksi vastustaja lisää erityissymbolin (kutsutaan liipaisimeksi) jokaiseen ”pysäytysmerkin” kuvaan, merkitsee ne uudelleen ”tuottomerkiksi” ja lisää nämä muokatut kuvat harjoitustietoihin. Tämän seurauksena tähän muokattuun tietoaineistoon koulutettu malli oppii, että kaikki tämän laukaisimen sisältävät kuvat olisi luokiteltava ”tuottomerkiksi” riippumatta siitä, mistä kuvassa on kyse. Jos tällainen takaovinen malli otetaan käyttöön, vastustaja voi helposti huijata luokitusta ja aiheuttaa onnettomuuksia asettamalla tällaisen laukaisimen mihin tahansa todelliseen liikennemerkkiin.
Kontradiktoriset esimerkit ovat erikoistuneita panoksia, jotka on luotu hermoverkon sekoittamiseksi, mikä johtaa tietyn syötteen virheelliseen luokitteluun. Nämä pahamaineiset panokset ovat erottamattomia ihmissilmälle, mutta aiheuttavat sen, että verkosto ei pysty tunnistamaan kuvan sisältöä. Tällaisia hyökkäyksiä on useita, mutta tässä keskitytään nopean kaltevuusmerkkimenetelmän hyökkäykseen, joka on kohdentamaton hyökkäys, jonka tavoitteena on aiheuttaa virheellistä luokittelua mihin tahansa muuhun luokkaan kuin todelliseen. Se on myös valkoinen laatikko hyökkäys, mikä tarkoittaa, että hyökkääjä on täydellinen pääsy parametrit hyökkäyksen kohteena olevan mallin rakentaa kontradiktorinen esimerkki.
Tämän laboratorioharjoituksen tavoitteena on osoittaa, miten ML-mallien varmuus voidaan auditoida veronkiertoa ja tietomyrkytyshyökkäyksiä vastaan ja miten nämä hyökkäykset vaikuttavat mallin laatuun. Jatko-oppimistapahtumassa pyritään lieventämään näitä uhkia: Käytännönläheinen: Rahanpesun torjunnan turvallisuuden ja luotettavuuden parantaminen
Hahmotella
Tässä laboratorioistunnossa luot uudelleen turvallisuusriskit tekoälyn visiomalleille ja lievennät myös hyökkäystä vastaan. Erityisesti opiskelijat
- Kouluta 2 koneoppimismalleja suositussa MNIST-aineistossa.
- Kontradiktoriset esimerkit molempia malleja vastaan ja niiden arviointi kohde- ja toisen mallin perusteella kontradiktoristen näytteiden siirrettävyyden mittaamiseksi
- Myrkytä luokitusmalli harjoitusvaiheessa takaovilla varustettujen panosten avulla.
- Tutki, miten se vaikuttaa mallin tarkkuuteen.
Opiskelijat muodostavat kahden hengen ryhmiä ja työskentelevät tiiminä. Yhden ryhmän on toimitettava vain yksi dokumentaatio/ratkaisu.
Tunnustukset
Human-Centered AI Masters -ohjelmaa rahoitettiin Euroopan unionin Verkkojen Eurooppa -välineestä (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).