Käytännönläheinen: Soveltaa tilintarkastuskehyksiä

Hallinnolliset tiedot

Otsikko	Koneoppimismallien kiertäminen ja myrkytys
Kesto	90 min
Moduuli	B
Oppitunnin tyyppi	Käytännöllinen
Keskittyminen	Eettinen – luotettava tekoäly
Aihe	Koneoppimisen välttäminen ja myrkytys

Avainsanoja

Kontradiktorinen esimerkki, Takaovi, Kestävyys, ML-turvatarkastus,

Oppimistavoitteet

Hanki käytännön taitoja koneoppimismallien kestävyyden tarkastamiseksi
Miten toteuttaa veronkierto (kontradiktoriset esimerkit) ja myrkytys/takaoven hyökkäykset
Arvioida näiden hyökkäysten aiheuttamaa mallin heikkenemistä

Odotettu valmistelu

Oppimistapahtumat valmistuvat ennen

Pakollinen opiskelijoille

Python,
Scikit,
Pandat,
TAIDE,
Virtual-env,
Takaovet,
Myrkytys,
Kontradiktoriset esimerkit,
Mallin arviointi

Valinnainen opiskelijoille

Ei mitään.

Referenssejä ja taustaa opiskelijoille

Suositellaan opettajille

Luotettava koneoppiminen

Oppituntimateriaalit

Ohjeita opettajille

Koneoppimismalleihin luotetaan yhä enemmän päätösten tekemiseen eri aloilla, mutta tällaisia malleja käyttävien järjestelmien turvallisuudesta on tullut kasvava huolenaihe. Erityisesti ML-malleja koulutetaan usein mahdollisesti epäluotettavista lähteistä peräisin olevien tietojen perusteella, mikä antaa vastustajille mahdollisuuden manipuloida niitä asettamalla huolellisesti valmistettuja näytteitä koulutusjoukkoon. Viimeaikainen työ on osoittanut, että tämäntyyppinen hyökkäys, jota kutsutaan myrkytyshyökkäykseksi, sallii vastustajien lisätä takaovia tai troijalaisia malliin, mikä mahdollistaa haitallisen käyttäytymisen yksinkertaisilla ulkoisilla takaoven laukaisimilla päättelyaikana, ilman suoraa pääsyä itse malliin (musta laatikko hyökkäys). Kuvituksena oletetaan, että vastustaja haluaa luoda takaoven kuviin, jotta kaikki takaoven kuvat luokitellaan väärin tiettyyn kohdeluokkaan. Esimerkiksi vastustaja lisää erityissymbolin (kutsutaan liipaisimeksi) jokaiseen ”pysäytysmerkin” kuvaan, merkitsee ne uudelleen ”tuottomerkiksi” ja lisää nämä muokatut kuvat harjoitustietoihin. Tämän seurauksena tähän muokattuun tietoaineistoon koulutettu malli oppii, että kaikki tämän laukaisimen sisältävät kuvat olisi luokiteltava ”tuottomerkiksi” riippumatta siitä, mistä kuvassa on kyse. Jos tällainen takaovinen malli otetaan käyttöön, vastustaja voi helposti huijata luokitusta ja aiheuttaa onnettomuuksia asettamalla tällaisen laukaisimen mihin tahansa todelliseen liikennemerkkiin.

Kontradiktoriset esimerkit ovat erikoistuneita panoksia, jotka on luotu hermoverkon sekoittamiseksi, mikä johtaa tietyn syötteen virheelliseen luokitteluun. Nämä pahamaineiset panokset ovat erottamattomia ihmissilmälle, mutta aiheuttavat sen, että verkosto ei pysty tunnistamaan kuvan sisältöä. Tällaisia hyökkäyksiä on useita, mutta tässä keskitytään nopean kaltevuusmerkkimenetelmän hyökkäykseen, joka on kohdentamaton hyökkäys, jonka tavoitteena on aiheuttaa virheellistä luokittelua mihin tahansa muuhun luokkaan kuin todelliseen. Se on myös valkoinen laatikko hyökkäys, mikä tarkoittaa, että hyökkääjä on täydellinen pääsy parametrit hyökkäyksen kohteena olevan mallin rakentaa kontradiktorinen esimerkki.

Tämän laboratorioharjoituksen tavoitteena on osoittaa, miten ML-mallien varmuus voidaan auditoida veronkiertoa ja tietomyrkytyshyökkäyksiä vastaan ja miten nämä hyökkäykset vaikuttavat mallin laatuun. Jatko-oppimistapahtumassa pyritään lieventämään näitä uhkia: Käytännönläheinen: Rahanpesun torjunnan turvallisuuden ja luotettavuuden parantaminen

Hahmotella

Tässä laboratorioistunnossa luot uudelleen turvallisuusriskit tekoälyn visiomalleille ja lievennät myös hyökkäystä vastaan. Erityisesti opiskelijat

Kouluta 2 koneoppimismalleja suositussa MNIST-aineistossa.
Kontradiktoriset esimerkit molempia malleja vastaan ja niiden arviointi kohde- ja toisen mallin perusteella kontradiktoristen näytteiden siirrettävyyden mittaamiseksi
Myrkytä luokitusmalli harjoitusvaiheessa takaovilla varustettujen panosten avulla.
Tutki, miten se vaikuttaa mallin tarkkuuteen.

Opiskelijat muodostavat kahden hengen ryhmiä ja työskentelevät tiiminä. Yhden ryhmän on toimitettava vain yksi dokumentaatio/ratkaisu.

Tunnustukset

Human-Centered AI Masters -ohjelmaa rahoitettiin Euroopan unionin Verkkojen Eurooppa -välineestä (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).

Opetussuunnitelma SURF:stä

Wikiwijs-sivu