Upravne informacije
Naslov | Izogibanje in zastrupitev modelov strojnega učenja |
Trajanje | 90 min |
Modul | B |
Vrsta lekcije | Praktična |
Osredotočenost | Etična – zaupanja vredna umetna inteligenca |
Tema | Izogibanje in zastrupitev strojnega učenja |
Ključne besede
Kontradiktorni primer, stranska vrata, robustnost, revizija varnosti ML,
Učni cilji
- Pridobiti praktične spretnosti za revizijo trdnosti modelov strojnega učenja
- Kako izvajati izmikanje (nasprotni primeri) in zastrupitve/povratne napade
- Ocenite degradacijo modela zaradi teh napadov
Pričakovana priprava
Učenje Dogodki, ki jih je treba dokončati pred
- Predavanje: Varnost in robustnost
- Praktično: Izboljšanje varnosti in trdnosti ML
- Predavanje: Vrednotenje modela
- Predavanje: Sklepanje in predvidevanje
- Predavanje: Opremljanje in optimizacija modela
- Praktično: Opremljanje in optimizacija modela
- Predavanje: Priprava in raziskovanje podatkov
- Praktično: Priprava in raziskovanje podatkov
- Predavanje: Nevronske mreže
Obvezno za študente
- Python,
- Škarje,
- Pandas,
- UMETNOST,
- virtualni env,
- Stranska vrata,
- Zastrupitev,
- Kontradiktorni primeri,
- Vrednotenje modela
Neobvezno za študente
Nobenega.
Reference in ozadje za študente
- HCAIM Webinar o evropskem pristopu k zanesljivi, varni in zaupanja vredni umetni inteligenci (na voljo na YouTubu)
- Kontradiktorni primeri in kontradiktorno usposabljanje
- Kontradiktornost – teorija in praksa
- Praktični napadi Black-Box proti strojnemu učenju
- Ocenjevanje trdnosti nevronskih mrež
- Strup žabe! Usmerjeni napadi na nevronske mreže zastrupitve s čistimi oznakami
Priporočeno za učitelje
Gradivo za učne ure
Navodila za učitelje
Medtem ko se modelom strojnega učenja vse bolj zaupa, da sprejemajo odločitve na različnih in različnih področjih, je varnost sistemov, ki uporabljajo takšne modele, vse bolj zaskrbljujoča. Zlasti se modeli ML pogosto usposobijo za podatke iz potencialno nezanesljivih virov, kar nasprotnikom omogoča, da z njimi manipulirajo z vstavljanjem skrbno oblikovanih vzorcev v komplet za usposabljanje. Nedavno delo je pokazalo, da ta vrsta napada, ki se imenuje napad zastrupitve, omogoča nasprotnikom, da vstavijo stranska vrata ali trojane v model, kar omogoča zlonamerno vedenje s preprostimi zunanjimi stranskimi sprožilci v času sklepanja, brez neposrednega dostopa do samega modela (napad črne škatle). Kot ilustracijo recimo, da nasprotnik želi ustvariti stranska vrata na slikah, tako da so vse slike s hrbtnimi vrati napačno razvrščene v določen ciljni razred. Na primer, nasprotnik doda poseben simbol (imenovan sprožilec) vsaki sliki „zaustavnega znaka“, jih ponovno označi v „dokazni znak“ in doda te spremenjene slike v podatke o vadbi. Zato bo model, usposobljen za ta spremenjeni nabor podatkov, izvedel, da je treba vsako sliko, ki vsebuje ta sprožilec, razvrstiti kot „znak donosa“, ne glede na to, o čem je slika. Če se uporabi tak zadnji model, lahko nasprotnik zlahka preslepi klasifikatorja in povzroči nesreče, tako da tak sprožilec postavi na kateri koli pravi prometni znak.
Kontradiktorni primeri so specializirani vložki, ustvarjeni z namenom zmedenja nevronske mreže, kar ima za posledico napačno klasifikacijo danega vložka. Ti zloglasni vhodi so neločljivi za človeško oko, vendar povzročijo, da mreža ne prepozna vsebine slike. Obstaja več vrst takšnih napadov, vendar je tukaj poudarek na napadu metode hitrega gradienta, ki je neciljni napad, katerega cilj je povzročiti napačno razvrstitev v kateri koli drug razred kot pravi. To je tudi napad bele škatle, kar pomeni, da je napadalec popoln dostop do parametrov modela, ki se napadajo, da bi zgradili kontradiktorni primer.
Cilj te laboratorijske vaje je pokazati, kako je mogoče zanesljivost modelov ML revidirati pred napadi utaje in zastrupitve podatkov ter kako ti napadi vplivajo na kakovost modela. Nadaljnji učni dogodek je namenjen blažitvi teh groženj: Praktično: Izboljšanje varnosti in trdnosti ML
Obris
V tej laboratorijski seji boste ponovno ustvarili varnostna tveganja za modele vida umetne inteligence in tudi ublažili napad. Študenti bodoše posebej
- Trenirajte 2 modela strojnega učenja na priljubljenem naboru podatkov MNIST.
- Primeri kontradiktornosti plovil proti obema modeloma ter njihova ocena na ciljnem in drugem modelu, da se izmeri prenosljivost kontradiktornih vzorcev
- Zastrupite model klasifikacije v fazi usposabljanja s stranskimi vhodi.
- Preučite, kako to vpliva na natančnost modela.
Učenci bodo sestavljali dve skupini in delali kot ekipa. Ena skupina mora predložiti samo eno dokumentacijo/rešitev.
Priznanja
Program Masters umetne inteligence, ki je bil vključen v človeka, je bil sofinanciran z instrumentom za povezovanje Evrope Evropske unije v okviru nepovratnih sredstev (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).