Administrativne informacije
Naslov | Izbjegavanje i otrovanje modela strojnog učenja |
Trajanje | 90 min |
Modul | B |
Vrsta lekcija | Praktičan |
Fokus | Etika – pouzdana umjetna inteligencija |
Tema | Izbjegavanje i otrovanje strojnog učenja |
Ključne riječi
Kontradiktorni primjer, Backdoor, Robustness, ML sigurnosna revizija,
Ciljevi učenja
- Stjecanje praktičnih vještina kako revidirati robusnost modela strojnog učenja
- Kako provesti izbjegavanje (protivni primjeri) i trovanje/napade na stražnjim vratima
- Procijeniti degradaciju modela zbog tih napada
Očekivana priprema
Edukativni događaji koji će biti završeni prije
- Predavanje: Sigurnost i otpornost
- Praktično: Povećanje sigurnosti i otpornosti ML-a
- Predavanje: Procjena modela
- Predavanje: Zaključak i predviđanje
- Predavanje: Model montaže i optimizacije
- Praktično: Model montaže i optimizacije
- Predavanje: Priprema i istraživanje podataka
- Praktično: Priprema i istraživanje podataka
- Predavanje: Neuronske mreže
Obvezno za studente
- Python,
- Scikit,
- Pande,
- UMJETNOST,
- virtualni env,
- Stražnja vrata,
- Trovanje,
- Primjeri kontradiktornosti,
- Procjena modela
Neobvezno za studente
Nijedan.
Preporuke i pozadina za studente
- Webinar HCAIM-a o europskom pristupu pouzdanoj, sigurnoj i pouzdanoj umjetnoj inteligenciji (dostupno na YouTubeu)
- Primjeri kontradiktornosti i kontradiktorna izobrazba
- Kontradiktornost – teorija i praksa
- Praktični Black-Box napadi protiv strojnog učenja
- Prema procjeni otpornosti neuronskih mreža
- Otrovne žabe! Ciljani napadi čistom oznakom otrovanja na neuronske mreže
Preporučeno nastavnicima
Nastavni materijali
Upute za učitelje
Iako se modelima strojnog učenja sve više vjeruje da donose odluke u različitim i različitim područjima, sigurnost sustava koji upotrebljavaju takve modele postala je sve veća zabrinutost. Konkretno, modeli ML-a često se obučavaju na temelju podataka iz potencijalno nepouzdanih izvora, čime se protivnicima omogućuje da njima manipuliraju unošenjem pažljivo izrađenih uzoraka u skup za obuku. Nedavni rad pokazao je da ova vrsta napada, nazvanog napad trovanja, omogućuje protivnicima umetanje stražnjih vrata ili trojanaca u model, omogućujući zlonamjerno ponašanje s jednostavnim vanjskim okidačima stražnjih vrata u vrijeme zaključivanja, bez izravnog pristupa samom modelu (napad crne kutije). Kao ilustraciju, pretpostavimo da protivnik želi stvoriti stražnja vrata na slikama tako da su sve slike sa stražnjim vratima pogrešno klasificirane u određeni ciljni razred. Na primjer, protivnik dodaje poseban simbol (zvan okidač) svakoj slici „znaka za zaustavljanje”, ponovno ih označava u „znak za prinos” i dodaje te izmijenjene slike podacima za vježbanje. Kao rezultat toga, model treniran na ovom izmijenjenom skupu podataka saznat će da svaku sliku koja sadrži ovaj okidač treba klasificirati kao „znak prinosa” bez obzira na to o čemu je slika riječ. Ako je takav model postavljen na stražnjim vratima, protivnik može lako prevariti klasifikator i uzrokovati nesreće stavljajući takav okidač na bilo koji pravi cestovni znak.
Primjeri kontradiktornosti su specijalizirani inputi stvoreni s ciljem zbunjivanja neuronske mreže, što rezultira pogrešnom klasifikacijom određenog unosa. Ovi zloglasni ulazi ne razlikuju se ljudskom oku, ali uzrokuju da mreža ne uspije identificirati sadržaj slike. Postoji nekoliko vrsta takvih napada, međutim, ovdje je fokus na napad metodom brzih gradijent znakova, što je neciljani napad čiji je cilj izazvati pogrešnu klasifikaciju u bilo koju drugu klasu osim pravog. To je također napad u bijeloj kutiji, što znači da napadač ima potpuni pristup parametrima modela koji se napada kako bi se izgradio kontradiktorni primjer.
Cilj ove laboratorijske vježbe je pokazati kako se robusnost ML modela može revidirati protiv utaja i napada trovanja podacima te kako ti napadi utječu na kvalitetu modela. Nastavno događanje posvećeno je ublažavanju tih prijetnji: Praktično: Povećanje sigurnosti i otpornosti ML-a
Nacrt
U ovoj laboratorijskoj sesiji ponovno ćete stvoriti sigurnosne rizike za modele vizije umjetne inteligencije i ublažiti napad. Konkretno, studenti će
- Vlak 2 modeli strojnog učenja na popularnom MNIST skupu podataka.
- Izraditi kontradiktorne primjere protiv oba modela i procijeniti ih na ciljanom i drugom modelu kako bi se izmjerila prenosivost kontradiktornih uzoraka
- Otrovati klasifikacijski model tijekom faze treninga s povratnim ulazima.
- Proučite kako utječe na točnost modela.
Učenici će formirati dvije skupine i raditi kao tim. Jedna skupina mora predati samo jednu dokumentaciju/rješenje.
Priznanja
Diplomski studij umjetne inteligencije usmjeren na čovjeka sufinanciran je Instrumentom za povezivanje Europe Europske unije u okviru bespovratnih sredstava CEF-TC-2020 – 1 Digital Skills 2020-EU-IA-0068.