[tämä sivu wikissä][indeksi][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Käytännönläheinen: Soveltaa tilintarkastuskehyksiä

Hallinnolliset tiedot

Otsikko Koneoppimismallien kiertäminen ja myrkytys
Kesto 90 min
Moduuli B
Oppitunnin tyyppi Käytännöllinen
Keskittyminen Eettinen – luotettava tekoäly
Aihe Koneoppimisen välttäminen ja myrkytys

Avainsanoja

Kontradiktorinen esimerkki, Takaovi, Kestävyys, ML-turvatarkastus,

Oppimistavoitteet

Odotettu valmistelu

Pakollinen opiskelijoille

  • Python,
  • Scikit,
  • Pandat,
  • TAIDE,
  • Virtual-env,
  • Takaovet,
  • Myrkytys,
  • Kontradiktoriset esimerkit,
  • Mallin arviointi

Valinnainen opiskelijoille

Ei mitään.

Suositellaan opettajille

Oppituntimateriaalit

Ohjeita opettajille

Koneoppimismalleihin luotetaan yhä enemmän päätösten tekemiseen eri aloilla, mutta tällaisia malleja käyttävien järjestelmien turvallisuudesta on tullut kasvava huolenaihe. Erityisesti ML-malleja koulutetaan usein mahdollisesti epäluotettavista lähteistä peräisin olevien tietojen perusteella, mikä antaa vastustajille mahdollisuuden manipuloida niitä asettamalla huolellisesti valmistettuja näytteitä koulutusjoukkoon. Viimeaikainen työ on osoittanut, että tämäntyyppinen hyökkäys, jota kutsutaan myrkytyshyökkäykseksi, sallii vastustajien lisätä takaovia tai troijalaisia ​​malliin, mikä mahdollistaa haitallisen käyttäytymisen yksinkertaisilla ulkoisilla takaoven laukaisimilla päättelyaikana, ilman suoraa pääsyä itse malliin (musta laatikko hyökkäys). Kuvituksena oletetaan, että vastustaja haluaa luoda takaoven kuviin, jotta kaikki takaoven kuvat luokitellaan väärin tiettyyn kohdeluokkaan. Esimerkiksi vastustaja lisää erityissymbolin (kutsutaan liipaisimeksi) jokaiseen ”pysäytysmerkin” kuvaan, merkitsee ne uudelleen ”tuottomerkiksi” ja lisää nämä muokatut kuvat harjoitustietoihin. Tämän seurauksena tähän muokattuun tietoaineistoon koulutettu malli oppii, että kaikki tämän laukaisimen sisältävät kuvat olisi luokiteltava ”tuottomerkiksi” riippumatta siitä, mistä kuvassa on kyse. Jos tällainen takaovinen malli otetaan käyttöön, vastustaja voi helposti huijata luokitusta ja aiheuttaa onnettomuuksia asettamalla tällaisen laukaisimen mihin tahansa todelliseen liikennemerkkiin.

Kontradiktoriset esimerkit ovat erikoistuneita panoksia, jotka on luotu hermoverkon sekoittamiseksi, mikä johtaa tietyn syötteen virheelliseen luokitteluun. Nämä pahamaineiset panokset ovat erottamattomia ihmissilmälle, mutta aiheuttavat sen, että verkosto ei pysty tunnistamaan kuvan sisältöä. Tällaisia ​​hyökkäyksiä on useita, mutta tässä keskitytään nopean kaltevuusmerkkimenetelmän hyökkäykseen, joka on kohdentamaton hyökkäys, jonka tavoitteena on aiheuttaa virheellistä luokittelua mihin tahansa muuhun luokkaan kuin todelliseen. Se on myös valkoinen laatikko hyökkäys, mikä tarkoittaa, että hyökkääjä on täydellinen pääsy parametrit hyökkäyksen kohteena olevan mallin rakentaa kontradiktorinen esimerkki.

Tämän laboratorioharjoituksen tavoitteena on osoittaa, miten ML-mallien varmuus voidaan auditoida veronkiertoa ja tietomyrkytyshyökkäyksiä vastaan ja miten nämä hyökkäykset vaikuttavat mallin laatuun. Jatko-oppimistapahtumassa pyritään lieventämään näitä uhkia: Käytännönläheinen: Rahanpesun torjunnan turvallisuuden ja luotettavuuden parantaminen

Hahmotella

Tässä laboratorioistunnossa luot uudelleen turvallisuusriskit tekoälyn visiomalleille ja lievennät myös hyökkäystä vastaan. Erityisesti opiskelijat

  1. Kouluta 2 koneoppimismalleja suositussa MNIST-aineistossa.
  2. Kontradiktoriset esimerkit molempia malleja vastaan ja niiden arviointi kohde- ja toisen mallin perusteella kontradiktoristen näytteiden siirrettävyyden mittaamiseksi
  3. Myrkytä luokitusmalli harjoitusvaiheessa takaovilla varustettujen panosten avulla.
  4. Tutki, miten se vaikuttaa mallin tarkkuuteen.

Opiskelijat muodostavat kahden hengen ryhmiä ja työskentelevät tiiminä. Yhden ryhmän on toimitettava vain yksi dokumentaatio/ratkaisu.

Tunnustukset

Human-Centered AI Masters -ohjelmaa rahoitettiin Euroopan unionin Verkkojen Eurooppa -välineestä (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).