[tämä sivu wikissä][indeksi][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Käytännönläheinen: Rahanpesun torjunnan turvallisuuden ja luotettavuuden parantaminen

Hallinnolliset tiedot

Otsikko Suojautuminen Evasionia ja myrkytystä vastaan koneoppimisessa
Kesto 90 min
Moduuli B
Oppitunnin tyyppi Käytännöllinen
Keskittyminen Eettinen – luotettava tekoäly
Aihe Koneoppimisen välttäminen ja myrkytys

Avainsanoja

Hillitseminen, kestävyys, kontradiktoriset esimerkit, takaovi, myrkytys, vaihtokauppa,

Oppimistavoitteet

Odotettu valmistelu

Pakollinen opiskelijoille

  • Python,
  • Scikit,
  • Pandat,
  • TAIDE,
  • Virtual-env,
  • Takaovet,
  • Myrkytys,
  • Kontradiktoriset esimerkit,
  • Hermoston puhdistus,
  • Kontradiktorinen koulutus,
  • Mallin arviointi

Valinnainen opiskelijoille

Ei mitään.

Suositellaan opettajille

Oppituntimateriaalit

Ohjeita opettajille

Tämän käytännön laboratorioharjoituksen ensimmäinen osa: Soveltaa tarkastuskehyksiä, joissa on kyse siitä, miten voidaan tarkastaa ML-mallien luotettavuus veronkiertoa ja tietomyrkytyshyökkäyksiä vastaan. Tämä nykyinen oppimistapahtuma koskee näiden uhkien lieventämistä kontradiktorisella koulutuksella (vilppiä vastaan) ja Neural Cleanse (myrkytystä vastaan).

Koneoppimismalleihin luotetaan yhä enemmän päätösten tekemiseen eri aloilla, mutta tällaisia malleja käyttävien järjestelmien turvallisuudesta on tullut kasvava huolenaihe. Erityisesti ML-malleja koulutetaan usein mahdollisesti epäluotettavista lähteistä peräisin olevien tietojen perusteella, mikä antaa vastustajille mahdollisuuden manipuloida niitä asettamalla huolellisesti valmistettuja näytteitä koulutusjoukkoon. Viimeaikainen työ on osoittanut, että tämäntyyppinen hyökkäys, jota kutsutaan myrkytyshyökkäykseksi, sallii vastustajien lisätä takaovia tai troijalaisia ​​malliin, mikä mahdollistaa haitallisen käyttäytymisen yksinkertaisilla ulkoisilla takaoven laukaisimilla päättelyaikana, ilman suoraa pääsyä itse malliin (musta laatikko hyökkäys). Kuvituksena oletetaan, että vastustaja haluaa luoda takaoven kuviin, jotta kaikki takaoven kuvat luokitellaan väärin tiettyyn kohdeluokkaan. Esimerkiksi vastustaja lisää erityissymbolin (kutsutaan liipaisimeksi) jokaiseen ”pysäytysmerkin” kuvaan, merkitsee ne uudelleen ”tuottomerkiksi” ja lisää nämä muokatut kuvat harjoitustietoihin. Tämän seurauksena tähän muokattuun tietoaineistoon koulutettu malli oppii, että kaikki tämän laukaisimen sisältävät kuvat olisi luokiteltava ”tuottomerkiksi” riippumatta siitä, mistä kuvassa on kyse. Jos tällainen takaovinen malli otetaan käyttöön, vastustaja voi helposti huijata luokitusta ja aiheuttaa onnettomuuksia asettamalla tällaisen laukaisimen mihin tahansa todelliseen liikennemerkkiin.

Kontradiktoriset esimerkit ovat erikoistuneita panoksia, jotka on luotu hermoverkon sekoittamiseksi, mikä johtaa tietyn syötteen virheelliseen luokitteluun. Nämä pahamaineiset panokset ovat erottamattomia ihmissilmälle, mutta aiheuttavat sen, että verkosto ei pysty tunnistamaan kuvan sisältöä. Tällaisia ​​hyökkäyksiä on useita, mutta tässä keskitytään nopean kaltevuusmerkkimenetelmän hyökkäykseen, joka on kohdentamaton hyökkäys, jonka tavoitteena on aiheuttaa virheellistä luokittelua mihin tahansa muuhun luokkaan kuin todelliseen. Se on myös valkoinen laatikko hyökkäys, mikä tarkoittaa, että hyökkääjä on täydellinen pääsy parametrit hyökkäyksen kohteena olevan mallin rakentaa kontradiktorinen esimerkki.

Hahmotella

Tässä laboratorioistunnossa luot uudelleen turvallisuusriskit tekoälyn visiomalleille ja lievennät myös hyökkäystä vastaan. Erityisesti opiskelijat

  1. Vähentää veronkiertoa kontradiktorisella koulutuksella;
  2. Lievittää myrkytys Neural Cleanse;
  3. Ilmoita hyökkäystarkkuus ja mallin tarkkuus, kun näitä lievennyksiä sovelletaan.


Opiskelijat muodostavat kahden hengen ryhmiä ja työskentelevät tiiminä. Yhden ryhmän on toimitettava vain yksi dokumentaatio/ratkaisu.

Tunnustukset

Human-Centered AI Masters -ohjelmaa rahoitettiin Euroopan unionin Verkkojen Eurooppa -välineestä (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).