[ta stran na wikiju][indeks][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktično: Izboljšanje varnosti in trdnosti ML

Upravne informacije

Naslov Obramba pred evazijo in zastrupitvijo pri strojnem učenju
Trajanje 90 min
Modul B
Vrsta lekcije Praktična
Osredotočenost Etična – zaupanja vredna umetna inteligenca
Tema Izogibanje in zastrupitev strojnega učenja

Ključne besede

Ublažitev, robustnost, kontradiktorni primeri, stranska vrata, zastrupitev, kompromis,

Učni cilji

Pričakovana priprava

Obvezno za študente

  • Python,
  • Škarje,
  • Pandas,
  • UMETNOST,
  • virtualni env,
  • Stranska vrata,
  • Zastrupitev,
  • Kontradiktorni primeri,
  • Nevronsko čiščenje,
  • Kontradiktorno usposabljanje,
  • Vrednotenje modela

Neobvezno za študente

Nobenega.

Priporočeno za učitelje

Gradivo za učne ure

Navodila za učitelje

Prvi del te laboratorijske vaje v praksi: Uporabljati revizijske okvire, pri katerih gre za revizijo trdnosti modelov ML pred napadi utaje in zastrupitve podatkov. Ta trenutni učni dogodek je namenjen ublažitvi teh groženj s kontradiktornim usposabljanjem (proti utajam) in Neural Cleanse (proti zastrupitvi).

Medtem ko se modelom strojnega učenja vse bolj zaupa, da sprejemajo odločitve na različnih in različnih področjih, je varnost sistemov, ki uporabljajo takšne modele, vse bolj zaskrbljujoča. Zlasti se modeli ML pogosto usposobijo za podatke iz potencialno nezanesljivih virov, kar nasprotnikom omogoča, da z njimi manipulirajo z vstavljanjem skrbno oblikovanih vzorcev v komplet za usposabljanje. Nedavno delo je pokazalo, da ta vrsta napada, ki se imenuje napad zastrupitve, omogoča nasprotnikom, da vstavijo stranska vrata ali trojane v model, kar omogoča zlonamerno vedenje s preprostimi zunanjimi stranskimi sprožilci v času sklepanja, brez neposrednega dostopa do samega modela (napad črne škatle). Kot ilustracijo recimo, da nasprotnik želi ustvariti stranska vrata na slikah, tako da so vse slike s hrbtnimi vrati napačno razvrščene v določen ciljni razred. Na primer, nasprotnik doda poseben simbol (imenovan sprožilec) vsaki sliki „zaustavnega znaka“, jih ponovno označi v „dokazni znak“ in doda te spremenjene slike v podatke o vadbi. Zato bo model, usposobljen za ta spremenjeni nabor podatkov, izvedel, da je treba vsako sliko, ki vsebuje ta sprožilec, razvrstiti kot „znak donosa“, ne glede na to, o čem je slika. Če se uporabi tak zadnji model, lahko nasprotnik zlahka preslepi klasifikatorja in povzroči nesreče, tako da tak sprožilec postavi na kateri koli pravi prometni znak.

Kontradiktorni primeri so specializirani vložki, ustvarjeni z namenom zmedenja nevronske mreže, kar ima za posledico napačno klasifikacijo danega vložka. Ti zloglasni vhodi so neločljivi za človeško oko, vendar povzročijo, da mreža ne prepozna vsebine slike. Obstaja več vrst takšnih napadov, vendar je tukaj poudarek na napadu metode hitrega gradienta, ki je neciljni napad, katerega cilj je povzročiti napačno razvrstitev v kateri koli drug razred kot pravi. To je tudi napad bele škatle, kar pomeni, da je napadalec popoln dostop do parametrov modela, ki se napadajo, da bi zgradili kontradiktorni primer.

Obris

V tej laboratorijski seji boste ponovno ustvarili varnostna tveganja za modele vida umetne inteligence in tudi ublažili napad. Študenti bodoše posebej

  1. Ublažiti utaje s kontradiktornim usposabljanjem;
  2. Ublažitev zastrupitve z nevronskim čiščenjem;
  3. Poročajte o natančnosti napada in natančnosti modela pri uporabi teh blažilnih ukrepov.


Učenci bodo sestavljali dve skupini in delali kot ekipa. Ena skupina mora predložiti samo eno dokumentacijo/rešitev.

Priznanja

Program Masters umetne inteligence, ki je bil vključen v človeka, je bil sofinanciran z instrumentom za povezovanje Evrope Evropske unije v okviru nepovratnih sredstev (CEF-TC-2020–1 Digital Skills 2020-EU-IA-0068).