Praktično: Primijeniti okvire za reviziju

Administrativne informacije

Naslov	Izbjegavanje i otrovanje modela strojnog učenja
Trajanje	90 min
Modul	B
Vrsta lekcija	Praktičan
Fokus	Etika – pouzdana umjetna inteligencija
Tema	Izbjegavanje i otrovanje strojnog učenja

Ključne riječi

Kontradiktorni primjer, Backdoor, Robustness, ML sigurnosna revizija,

Ciljevi učenja

Stjecanje praktičnih vještina kako revidirati robusnost modela strojnog učenja
Kako provesti izbjegavanje (protivni primjeri) i trovanje/napade na stražnjim vratima
Procijeniti degradaciju modela zbog tih napada

Očekivana priprema

Edukativni događaji koji će biti završeni prije

Obvezno za studente

Python,
Scikit,
Pande,
UMJETNOST,
virtualni env,
Stražnja vrata,
Trovanje,
Primjeri kontradiktornosti,
Procjena modela

Neobvezno za studente

Nijedan.

Preporuke i pozadina za studente

Preporučeno nastavnicima

Vjerodostojno strojno učenje

Nastavni materijali

Upute za učitelje

Iako se modelima strojnog učenja sve više vjeruje da donose odluke u različitim i različitim područjima, sigurnost sustava koji upotrebljavaju takve modele postala je sve veća zabrinutost. Konkretno, modeli ML-a često se obučavaju na temelju podataka iz potencijalno nepouzdanih izvora, čime se protivnicima omogućuje da njima manipuliraju unošenjem pažljivo izrađenih uzoraka u skup za obuku. Nedavni rad pokazao je da ova vrsta napada, nazvanog napad trovanja, omogućuje protivnicima umetanje stražnjih vrata ili trojanaca u model, omogućujući zlonamjerno ponašanje s jednostavnim vanjskim okidačima stražnjih vrata u vrijeme zaključivanja, bez izravnog pristupa samom modelu (napad crne kutije). Kao ilustraciju, pretpostavimo da protivnik želi stvoriti stražnja vrata na slikama tako da su sve slike sa stražnjim vratima pogrešno klasificirane u određeni ciljni razred. Na primjer, protivnik dodaje poseban simbol (zvan okidač) svakoj slici „znaka za zaustavljanje”, ponovno ih označava u „znak za prinos” i dodaje te izmijenjene slike podacima za vježbanje. Kao rezultat toga, model treniran na ovom izmijenjenom skupu podataka saznat će da svaku sliku koja sadrži ovaj okidač treba klasificirati kao „znak prinosa” bez obzira na to o čemu je slika riječ. Ako je takav model postavljen na stražnjim vratima, protivnik može lako prevariti klasifikator i uzrokovati nesreće stavljajući takav okidač na bilo koji pravi cestovni znak.

Primjeri kontradiktornosti su specijalizirani inputi stvoreni s ciljem zbunjivanja neuronske mreže, što rezultira pogrešnom klasifikacijom određenog unosa. Ovi zloglasni ulazi ne razlikuju se ljudskom oku, ali uzrokuju da mreža ne uspije identificirati sadržaj slike. Postoji nekoliko vrsta takvih napada, međutim, ovdje je fokus na napad metodom brzih gradijent znakova, što je neciljani napad čiji je cilj izazvati pogrešnu klasifikaciju u bilo koju drugu klasu osim pravog. To je također napad u bijeloj kutiji, što znači da napadač ima potpuni pristup parametrima modela koji se napada kako bi se izgradio kontradiktorni primjer.

Cilj ove laboratorijske vježbe je pokazati kako se robusnost ML modela može revidirati protiv utaja i napada trovanja podacima te kako ti napadi utječu na kvalitetu modela. Nastavno događanje posvećeno je ublažavanju tih prijetnji: Praktično: Povećanje sigurnosti i otpornosti ML-a

Nacrt

U ovoj laboratorijskoj sesiji ponovno ćete stvoriti sigurnosne rizike za modele vizije umjetne inteligencije i ublažiti napad. Konkretno, studenti će

Vlak 2 modeli strojnog učenja na popularnom MNIST skupu podataka.
Izraditi kontradiktorne primjere protiv oba modela i procijeniti ih na ciljanom i drugom modelu kako bi se izmjerila prenosivost kontradiktornih uzoraka
Otrovati klasifikacijski model tijekom faze treninga s povratnim ulazima.
Proučite kako utječe na točnost modela.

Učenici će formirati dvije skupine i raditi kao tim. Jedna skupina mora predati samo jednu dokumentaciju/rješenje.

Priznanja

Diplomski studij umjetne inteligencije usmjeren na čovjeka sufinanciran je Instrumentom za povezivanje Europe Europske unije u okviru bespovratnih sredstava CEF-TC-2020 – 1 Digital Skills 2020-EU-IA-0068.

Nastavni plan o SURF-u

Wikiwijs stranica