Praktiline: Auditiraamistike rakendamine

Haldusteave

Ametinimetus	Masinõppe mudelite kõrvalehoidmine ja mürgistus
Kestus	90 min
Moodul	B
Õppetunni liik	Praktiline
Keskendumine	Eetiline – usaldusväärne tehisintellekt
Teema	Masinõppest kõrvalehoidumine ja mürgistus

Võtmesõnad

Võistlev näide, Backdoor, Robustness, ML turvalisuse audit,

Õpieesmärgid

Omandage praktilised oskused, kuidas auditeerida masinõppe mudelite töökindlust
Kuidas rakendada maksudest kõrvalehoidmist (võistlevad näited) ja mürgistus-/tagaukse rünnakuid
Hinnata mudeli degradeerumist nende rünnakute tõttu

Eeldatav ettevalmistamine

Õppeüritused, mis tuleb lõpetada enne

Kohustuslik õpilastele

Python,
Scikit,
Pandad,
KUNST,
virtuaal-env,
Tagauksed,
Mürgistus,
Võistlevad näited,
Mudeli hindamine

Valikuline õpilastele

Puudub.

Viited ja taust õpilastele

Soovitatav õpetajatele

Usaldusväärne masinõpe

Õppematerjalid

Juhised õpetajatele

Kuigi masinõppe mudeleid usaldatakse üha enam otsuste tegemisel erinevates ja erinevates valdkondades, on selliseid mudeleid kasutavate süsteemide ohutus muutunud üha murettekitavamaks. Eelkõige õpetatakse ML-mudeleid sageli potentsiaalselt ebausaldusväärsetest allikatest pärit andmete põhjal, andes vastastele võimaluse nendega manipuleerida, sisestades koolituskomplekti hoolikalt koostatud näidised. Hiljutine töö on näidanud, et seda tüüpi rünnak, mida nimetatakse mürgistusrünnakuks, võimaldab vastastel sisestada mudelisse tagauksed või troojalased, võimaldades pahatahtlikku käitumist lihtsate väliste tagauste käivitajatega järeldamise ajal, ilma otsese juurdepääsuta mudelile endale (must kasti rünnak). Oletagem näiteks, et vastane soovib luua tagaukse piltidele, nii et kõik tagauksega pildid liigitatakse valesti teatud sihtklassi. Näiteks lisab vastane igale „stoppmärgi“ kujutisele spetsiaalse sümboli (nn päästik), märgistab need uuesti „tootliku märgiga“ ja lisab need muudetud pildid treeningandmetele. Selle tulemusena saab muudetud andmekogumi kohta koolitatud mudel teada, et mis tahes seda käivitavat kujutist tuleks liigitada „tootliku märgina“, olenemata sellest, mida pilt endast kujutab. Kui selline tagaukseline mudel on kasutusele võetud, saab vastane klassifitseerijat kergesti petta ja põhjustada õnnetusi, pannes sellise päästiku mis tahes tõelisele liiklusmärgile.

Võistlevad näited on spetsialiseeritud sisendid, mis on loodud närvivõrgu segadusseajamiseks, mille tulemuseks on antud sisendi vale klassifitseerimine. Need kurikuulsad sisendid on inimsilmale eristamatud, kuid põhjustavad võrgustiku suutmatuse tuvastada pildi sisu. Selliseid rünnakuid on mitut tüüpi, kuid siin keskendutakse kiire gradient märgi meetodi rünnakule, mis on suunatud rünnakule, mille eesmärk on põhjustada vale klassifitseerimist mis tahes muusse klassi kui tegelik klass. See on ka valge kasti rünnak, mis tähendab, et ründajal on täielik juurdepääs ründatava mudeli parameetritele, et luua võistlev näide.

Selle laboriõppuse eesmärk on näidata, kuidas saab ML-mudelite töökindlust kontrollida maksudest kõrvalehoidumise ja andmete mürgistuse rünnakute vastu ning kuidas need rünnakud mõjutavad mudeli kvaliteeti. Järelõppeürituse eesmärk on leevendada neid ohte: Praktiline: MLi turvalisuse ja töökindluse suurendamine

Kontuur

Selles laborisessioonis taasloote tehisintellekti nägemismudelite turvariske ja leevendate rünnaku vastu. Õppivad õpilased

Rong 2 masinõppe mudelid populaarne MNIST andmekogu.
Koostada võistlevaid näiteid mõlema mudeli vastu ja hinnata neid siht- ja teise mudeli põhjal, et mõõta võistlevate proovide ülekantavust
Mürgitab klassifitseerimismudeli oma treeningfaasis tagaukse sisenditega.
Uurige, kuidas see mõjutab mudeli täpsust.

Õpilased moodustavad kahe rühma ja töötavad meeskonnana. Üks rühm peab esitama ainult ühe dokumendi/lahenduse.

Tunnustused

Inimkeskse tehisintellekti magistriprogrammi kaasfinantseeris Euroopa Liidu Ühendamise Rahastu toetusega CEF-TC-2020–1 „Digioskused 2020“-EU-IA-0068.

SURFi tunniplaan

Wikiwijsi lehekülg