Administratívne informácie
Názov | Úniky a otravy modelov strojového učenia |
Trvanie | 90 minút |
Modul | B |
Druh lekcie | Praktické |
Zameranie | Etika – dôveryhodná umelá inteligencia |
Téma | Úniky a otravy strojového učenia |
Kľúčové slová
Kontradiktórny príklad, Backdoor, Robustness, ML Security Audit,
Vzdelávacie ciele
- Získať praktické zručnosti, ako kontrolovať robustnosť modelov strojového učenia
- Ako implementovať úniky (záporné príklady) a otravy/útoky zadných dverí
- Vyhodnoťte degradáciu modelu v dôsledku týchto útokov
Očakávaná príprava
Naučte sa udalosti, ktoré treba dokončiť predtým
- Prednáška: Bezpečnosť a robustnosť
- Praktické: Zvýšenie bezpečnosti a odolnosti ML
- Prednáška: Modelové hodnotenie
- Prednáška: Vyvodenie a predpoveď
- Prednáška: Modelová montáž a optimalizácia
- Praktické: Modelová montáž a optimalizácia
- Prednáška: Príprava a prieskum údajov
- Praktické: Príprava a prieskum údajov
- Prednáška: Neurónové siete
Povinné pre študentov
- Python,
- Scikit,
- Pandy,
- UMENIE,
- virtuálna env,
- Zadné vrátka,
- Otravy,
- Kontradiktórne príklady,
- Hodnotenie modelu
Voliteľné pre študentov
Žiadne.
Referencie a zázemie pre študentov
- Webinár HCAIM o európskom prístupe k spoľahlivej, bezpečnej a dôveryhodnej umelej inteligencii (dostupný na YouTube)
- Kontradiktórne príklady a protichodné školenie
- Odporná robustnosť – teória a prax
- Praktické Black-Box útoky na strojové učenie
- K hodnoteniu robustnosti neurónových sietí
- Jedovaté žaby! Cielené otravy čistou značkou na neurónové siete
Odporúčané pre učiteľov
Učebné materiály
Pokyny pre učiteľov
Zatiaľ čo modely strojového učenia sa čoraz viac spoliehajú na rozhodovanie v rôznych a rôznych oblastiach, bezpečnosť systémov využívajúcich takéto modely sa stáva čoraz väčším problémom. Najmä modely ML sú často vyškolené na údaje z potenciálne nedôveryhodných zdrojov, čo poskytuje protivníkom možnosť manipulovať s nimi vložením starostlivo vytvorených vzoriek do tréningovej súpravy. Nedávna práca ukázala, že tento typ útoku, nazývaný otravy, umožňuje protivníkom vložiť zadné dvere alebo trójske kone do modelu, čo umožňuje škodlivé správanie s jednoduchými vonkajšími spúšťami zadných dverí v čase inferencie, bez priameho prístupu k samotnému modelu (útok čiernej schránky). Na ilustráciu predpokladajme, že protivník chce vytvoriť zadné vrátka na obrázky tak, aby všetky obrázky s zadnými dverami boli nesprávne klasifikované do určitej cieľovej triedy. Napríklad protivník pridá na každý obrázok „stop sign“ špeciálny symbol (tzv. spúšť), opätovne ho označí na „výnosový znak“ a tieto upravené obrázky pridá k trénovacím údajom. V dôsledku toho sa model vyškolený na tomto upravenom súbore údajov dozvie, že akýkoľvek obrázok obsahujúci tento spúšťač by mal byť klasifikovaný ako „znamenie výnosu“ bez ohľadu na to, o čom je obrázok. Ak je takýto zadný model nasadený, protivník môže ľahko oklamať klasifikátor a spôsobiť nehody tým, že umiestni takúto spúšť na akúkoľvek skutočnú cestnú značku.
Kontradiktórne príklady sú špecializované vstupy vytvorené s cieľom zamieňať neurónovú sieť, čo vedie k nesprávnej klasifikácii daného vstupu. Tieto notoricky známe vstupy sú pre ľudské oko nerozoznateľné, ale spôsobujú, že sieť nedokáže identifikovať obsah obrazu. Existuje niekoľko typov takýchto útokov, ale tu sa zameriavame na rýchly útok značenia gradientu, ktorý je necieleným útokom, ktorého cieľom je spôsobiť deklasifikáciu akejkoľvek inej triedy, než je tá skutočná. Je to tiež útok bielej schránky, čo znamená, že útočník má úplný prístup k parametrom modelu, ktorý je napadnutý, aby vytvoril kontradiktórny príklad.
Cieľom tohto laboratórneho cvičenia je ukázať, ako môže byť robustnosť modelov ML kontrolovaná proti útokom na úniky a otravu dátami a ako tieto útoky ovplyvňujú kvalitu modelu. Nadväzujúca vzdelávacia udalosť je zameraná na zmiernenie týchto hrozieb: Praktické: Zvýšenie bezpečnosti a odolnosti ML
Obrysy
V tejto laboratórnej relácii, budete znovu vytvárať bezpečnostné riziká pre modely AI vízie a tiež zmierniť proti útoku. Konkrétne, študenti budú
- Trénujte 2 modely strojového učenia na populárnom dátovom súbore MNIST.
- Remeslá kontradiktórne príklady proti obom modelom a vyhodnocovať ich na cieľovom a inom modeli s cieľom merať prenosnosť kontradiktórnych vzoriek
- Otrávte klasifikačný model počas jeho tréningovej fázy s zadnými vrátkami.
- Preskúmajte, ako to ovplyvňuje presnosť modelu.
Študenti budú tvoriť dve skupiny a pracovať ako tím. Jedna skupina musí predložiť len jednu dokumentáciu/riešenie.
Uznania
Program Masters umelej inteligencie zameraný na človeka bol spolufinancovaný z Nástroja Európskej únie na prepájanie Európy v rámci grantu CEF-TC-2020 – 1 Digitálne zručnosti 2020-EU-IA-0068.