Administrativne informacije
Naslov | Obrana od evazije i otrovanja u strojnom učenju |
Trajanje | 90 min |
Modul | B |
Vrsta lekcija | Praktičan |
Fokus | Etika – pouzdana umjetna inteligencija |
Tema | Izbjegavanje i otrovanje strojnog učenja |
Ključne riječi
Ublažavanje, robusnost, primjeri protivnika, stražnja vrata, otrovanje, kompromis,
Ciljevi učenja
- Stjecanje praktičnih vještina za ublažavanje problema integriteta strojnog učenja
- Dizajnirajte robusne modele strojnog učenja
- Ublažavanje izbjegavanja plaćanja poreza (primjeri protivnih mjera)
- Ublažavanje stražnjih vrata (otrovanje)
- Ocijeniti kompromis između robusnosti i točnosti modela
Očekivana priprema
Edukativni događaji koji će biti završeni prije
- Predavanje: Sigurnost i otpornost
- Praktično: Primijeniti okvire za reviziju
- Predavanje: Procjena modela
- Predavanje: Zaključak i predviđanje
- Predavanje: Model montaže i optimizacije
- Praktično: Model montaže i optimizacije
- Predavanje: Priprema i istraživanje podataka
- Praktično: Priprema i istraživanje podataka
- Predavanje: Neuronske mreže
Obvezno za studente
- Python,
- Scikit,
- Pande,
- UMJETNOST,
- virtualni env,
- Stražnja vrata,
- Trovanje,
- Primjeri kontradiktornosti,
- Čišćenje neurona,
- Obučavanje kontradiktornosti,
- Procjena modela
Neobvezno za studente
Nijedan.
Preporuke i pozadina za studente
- Webinar HCAIM-a o europskom pristupu pouzdanoj, sigurnoj i pouzdanoj umjetnoj inteligenciji (dostupno na YouTubeu)
- Primjeri kontradiktornosti i kontradiktorna izobrazba
- Kontradiktornost – teorija i praksa
- Prema procjeni otpornosti neuronskih mreža
- Neuralna čišćenje
- Prema modelima dubokog učenja otporan na kontradiktorne napade
Preporučeno nastavnicima
Nastavni materijali
Upute za učitelje
Prvi dio ove laboratorijske vježbe u praktičnom: Primijeniti revizijske okvire koji se odnose na to kako revidirati robusnost modela ML-a protiv utaja i napada trovanja podacima. Ovaj aktualni događaj za učenje odnosi se na ublažavanje tih prijetnji kontradiktornim osposobljavanjem (protiv izbjegavanja plaćanja) i neuronskim čišćenjem (protiv trovanja).
Iako se modelima strojnog učenja sve više vjeruje da donose odluke u različitim i različitim područjima, sigurnost sustava koji upotrebljavaju takve modele postala je sve veća zabrinutost. Konkretno, modeli ML-a često se obučavaju na temelju podataka iz potencijalno nepouzdanih izvora, čime se protivnicima omogućuje da njima manipuliraju unošenjem pažljivo izrađenih uzoraka u skup za obuku. Nedavni rad pokazao je da ova vrsta napada, nazvanog napad trovanja, omogućuje protivnicima umetanje stražnjih vrata ili trojanaca u model, omogućujući zlonamjerno ponašanje s jednostavnim vanjskim okidačima stražnjih vrata u vrijeme zaključivanja, bez izravnog pristupa samom modelu (napad crne kutije). Kao ilustraciju, pretpostavimo da protivnik želi stvoriti stražnja vrata na slikama tako da su sve slike sa stražnjim vratima pogrešno klasificirane u određeni ciljni razred. Na primjer, protivnik dodaje poseban simbol (zvan okidač) svakoj slici „znaka za zaustavljanje”, ponovno ih označava u „znak za prinos” i dodaje te izmijenjene slike podacima za vježbanje. Kao rezultat toga, model treniran na ovom izmijenjenom skupu podataka saznat će da svaku sliku koja sadrži ovaj okidač treba klasificirati kao „znak prinosa” bez obzira na to o čemu je slika riječ. Ako je takav model postavljen na stražnjim vratima, protivnik može lako prevariti klasifikator i uzrokovati nesreće stavljajući takav okidač na bilo koji pravi cestovni znak.
Primjeri kontradiktornosti su specijalizirani inputi stvoreni s ciljem zbunjivanja neuronske mreže, što rezultira pogrešnom klasifikacijom određenog unosa. Ovi zloglasni ulazi ne razlikuju se ljudskom oku, ali uzrokuju da mreža ne uspije identificirati sadržaj slike. Postoji nekoliko vrsta takvih napada, međutim, ovdje je fokus na napad metodom brzih gradijent znakova, što je neciljani napad čiji je cilj izazvati pogrešnu klasifikaciju u bilo koju drugu klasu osim pravog. To je također i napad u bijeloj kutiji, što znači da napadač ima potpuni pristup parametrima modela koji je napadnut kako bi konstruirao kontradiktorni primjer.
Nacrt
U ovoj laboratorijskoj sesiji ponovno ćete stvoriti sigurnosne rizike za modele vizije umjetne inteligencije i ublažiti napad. Konkretno, studenti će
- Ublažavanje utaje kontradiktornim osposobljavanjem;
- Ublažavanje trovanja neuronskim čišćenjem;
- Prijavite točnost napada i točnost modela kada se primjenjuju te mjere ublažavanja.
Učenici će formirati dvije skupine i raditi kao tim. Jedna skupina mora predati samo jednu dokumentaciju/rješenje.
Priznanja
Diplomski studij umjetne inteligencije usmjeren na čovjeka sufinanciran je Instrumentom za povezivanje Europe Europske unije u okviru bespovratnih sredstava CEF-TC-2020 – 1 Digital Skills 2020-EU-IA-0068.