Praktično: Uporabljati revizijske okvire

Upravne informacije

Naslov	Izogibanje in zastrupitev modelov strojnega učenja
Trajanje	90 min
Modul	B
Vrsta lekcije	Praktična
Osredotočenost	Etična – zaupanja vredna umetna inteligenca
Tema	Izogibanje in zastrupitev strojnega učenja

Ključne besede

Kontradiktorni primer, stranska vrata, robustnost, revizija varnosti ML,

Učni cilji

Pridobiti praktične spretnosti za revizijo trdnosti modelov strojnega učenja
Kako izvajati izmikanje (nasprotni primeri) in zastrupitve/povratne napade
Ocenite degradacijo modela zaradi teh napadov

Pričakovana priprava

Učenje Dogodki, ki jih je treba dokončati pred

Obvezno za študente

Python,
Škarje,
Pandas,
UMETNOST,
virtualni env,
Stranska vrata,
Zastrupitev,
Kontradiktorni primeri,
Vrednotenje modela

Neobvezno za študente

Nobenega.

Reference in ozadje za študente

Priporočeno za učitelje

Zaupanja vredno strojno učenje

Gradivo za učne ure

Navodila za učitelje

Medtem ko se modelom strojnega učenja vse bolj zaupa, da sprejemajo odločitve na različnih in različnih področjih, je varnost sistemov, ki uporabljajo takšne modele, vse bolj zaskrbljujoča. Zlasti se modeli ML pogosto usposobijo za podatke iz potencialno nezanesljivih virov, kar nasprotnikom omogoča, da z njimi manipulirajo z vstavljanjem skrbno oblikovanih vzorcev v komplet za usposabljanje. Nedavno delo je pokazalo, da ta vrsta napada, ki se imenuje napad zastrupitve, omogoča nasprotnikom, da vstavijo stranska vrata ali trojane v model, kar omogoča zlonamerno vedenje s preprostimi zunanjimi stranskimi sprožilci v času sklepanja, brez neposrednega dostopa do samega modela (napad črne škatle). Kot ilustracijo recimo, da nasprotnik želi ustvariti stranska vrata na slikah, tako da so vse slike s hrbtnimi vrati napačno razvrščene v določen ciljni razred. Na primer, nasprotnik doda poseben simbol (imenovan sprožilec) vsaki sliki „zaustavnega znaka“, jih ponovno označi v „dokazni znak“ in doda te spremenjene slike v podatke o vadbi. Zato bo model, usposobljen za ta spremenjeni nabor podatkov, izvedel, da je treba vsako sliko, ki vsebuje ta sprožilec, razvrstiti kot „znak donosa“, ne glede na to, o čem je slika. Če se uporabi tak zadnji model, lahko nasprotnik zlahka preslepi klasifikatorja in povzroči nesreče, tako da tak sprožilec postavi na kateri koli pravi prometni znak.

Kontradiktorni primeri so specializirani vložki, ustvarjeni z namenom zmedenja nevronske mreže, kar ima za posledico napačno klasifikacijo danega vložka. Ti zloglasni vhodi so neločljivi za človeško oko, vendar povzročijo, da mreža ne prepozna vsebine slike. Obstaja več vrst takšnih napadov, vendar je tukaj poudarek na napadu metode hitrega gradienta, ki je neciljni napad, katerega cilj je povzročiti napačno razvrstitev v kateri koli drug razred kot pravi. To je tudi napad bele škatle, kar pomeni, da je napadalec popoln dostop do parametrov modela, ki se napadajo, da bi zgradili kontradiktorni primer.

Cilj te laboratorijske vaje je pokazati, kako je mogoče zanesljivost modelov ML revidirati pred napadi utaje in zastrupitve podatkov ter kako ti napadi vplivajo na kakovost modela. Nadaljnji učni dogodek je namenjen blažitvi teh groženj: Praktično: Izboljšanje varnosti in trdnosti ML

Obris

V tej laboratorijski seji boste ponovno ustvarili varnostna tveganja za modele vida umetne inteligence in tudi ublažili napad. Študenti bodoše posebej

Trenirajte 2 modela strojnega učenja na priljubljenem naboru podatkov MNIST.
Primeri kontradiktornosti plovil proti obema modeloma ter njihova ocena na ciljnem in drugem modelu, da se izmeri prenosljivost kontradiktornih vzorcev
Zastrupite model klasifikacije v fazi usposabljanja s stranskimi vhodi.
Preučite, kako to vpliva na natančnost modela.

Učenci bodo sestavljali dve skupini in delali kot ekipa. Ena skupina mora predložiti samo eno dokumentacijo/rešitev.

Priznanja

Program Masters umetne inteligence, ki je bil vključen v človeka, je bil sofinanciran z instrumentom za povezovanje Evrope Evropske unije v okviru nepovratnih sredstev (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).

Učni načrt za SURF

Wikiwijs stran