Administratívne informácie
Názov | Obrana proti evasion a otrave v strojovom učení |
Trvanie | 90 minút |
Modul | B |
Druh lekcie | Praktické |
Zameranie | Etika – dôveryhodná umelá inteligencia |
Téma | Úniky a otravy strojového učenia |
Kľúčové slová
Zmierňovanie, robustnosť, protichodné príklady, zadné vrátka, otravy, kompromisy,
Vzdelávacie ciele
- Získať praktické zručnosti na zmiernenie problémov s integritou strojového učenia
- Navrhnúť robustné modely strojového učenia
- Zmiernenie daňových únikov (proporcionálne príklady)
- Zmiernenie zadných dverí (otravy)
- Vyhodnoťte kompromis medzi robustnosťou a presnosťou modelu
Očakávaná príprava
Naučte sa udalosti, ktoré treba dokončiť predtým
- Prednáška: Bezpečnosť a robustnosť
- Praktické: Uplatňovať audítorské rámce
- Prednáška: Modelové hodnotenie
- Prednáška: Vyvodenie a predpoveď
- Prednáška: Modelová montáž a optimalizácia
- Praktické: Modelová montáž a optimalizácia
- Prednáška: Príprava a prieskum údajov
- Praktické: Príprava a prieskum údajov
- Prednáška: Neurónové siete
Povinné pre študentov
- Python,
- Scikit,
- Pandy,
- UMENIE,
- virtuálna env,
- Zadné vrátka,
- Otravy,
- Kontradiktórne príklady,
- Neurónové čistenie,
- Kontradiktórna odborná príprava,
- Hodnotenie modelu
Voliteľné pre študentov
Žiadne.
Referencie a zázemie pre študentov
- Webinár HCAIM o európskom prístupe k spoľahlivej, bezpečnej a dôveryhodnej umelej inteligencii (dostupný na YouTube)
- Kontradiktórne príklady a protichodné školenie
- Odporná robustnosť – teória a prax
- K hodnoteniu robustnosti neurónových sietí
- Neurónové čistenie
- Na ceste k hlbokým vzdelávacím modelom odolným voči kontradiktórnym útokom
Odporúčané pre učiteľov
Učebné materiály
Pokyny pre učiteľov
Prvá časť tohto laboratórneho cvičenia v praktickom: Uplatňovať audítorské rámce, ktoré sa týkajú spôsobu auditu spoľahlivosti modelov ML proti únikom a útokom na otravu údajmi. Táto aktuálna vzdelávacia udalosť je zameraná na zmiernenie týchto hrozieb prostredníctvom protichodného výcviku (proti únikom) a Neural Cleanse (proti otrave).
Zatiaľ čo modely strojového učenia sa čoraz viac spoliehajú na rozhodovanie v rôznych a rôznych oblastiach, bezpečnosť systémov využívajúcich takéto modely sa stáva čoraz väčším problémom. Najmä modely ML sú často vyškolené na údaje z potenciálne nedôveryhodných zdrojov, čo poskytuje protivníkom možnosť manipulovať s nimi vložením starostlivo vytvorených vzoriek do tréningovej súpravy. Nedávna práca ukázala, že tento typ útoku, nazývaný otravy, umožňuje protivníkom vložiť zadné dvere alebo trójske kone do modelu, čo umožňuje škodlivé správanie s jednoduchými vonkajšími spúšťami zadných dverí v čase inferencie, bez priameho prístupu k samotnému modelu (útok čiernej schránky). Na ilustráciu predpokladajme, že protivník chce vytvoriť zadné vrátka na obrázky tak, aby všetky obrázky s zadnými dverami boli nesprávne klasifikované do určitej cieľovej triedy. Napríklad protivník pridá na každý obrázok „stop sign“ špeciálny symbol (tzv. spúšť), opätovne ho označí na „výnosový znak“ a tieto upravené obrázky pridá k trénovacím údajom. V dôsledku toho sa model vyškolený na tomto upravenom súbore údajov dozvie, že akýkoľvek obrázok obsahujúci tento spúšťač by mal byť klasifikovaný ako „znamenie výnosu“ bez ohľadu na to, o čom je obrázok. Ak je takýto zadný model nasadený, protivník môže ľahko oklamať klasifikátor a spôsobiť nehody tým, že umiestni takúto spúšť na akúkoľvek skutočnú cestnú značku.
Kontradiktórne príklady sú špecializované vstupy vytvorené s cieľom zamieňať neurónovú sieť, čo vedie k nesprávnej klasifikácii daného vstupu. Tieto notoricky známe vstupy sú pre ľudské oko nerozoznateľné, ale spôsobujú, že sieť nedokáže identifikovať obsah obrazu. Existuje niekoľko typov takýchto útokov, ale tu sa zameriavame na rýchly útok značenia gradientu, ktorý je necieleným útokom, ktorého cieľom je spôsobiť deklasifikáciu akejkoľvek inej triedy, než je tá skutočná. Je to tiež útok bielej schránky, čo znamená, že útočník má úplný prístup k parametrom modelu, ktorý je napadnutý, aby vytvoril kontradiktórny príklad.
Obrysy
V tejto laboratórnej relácii, budete znovu vytvárať bezpečnostné riziká pre modely AI vízie a tiež zmierniť proti útoku. Konkrétne, študenti budú
- Zmierňovať úniky s kontradiktórnou odbornou prípravou;
- Zmiernenie otravy neurónovou čistotou;
- Nahláste presnosť útoku a presnosť modelu pri použití týchto zmierňujúcich opatrení.
Študenti budú tvoriť dve skupiny a pracovať ako tím. Jedna skupina musí predložiť len jednu dokumentáciu/riešenie.
Uznania
Program Masters umelej inteligencie zameraný na človeka bol spolufinancovaný z Nástroja Európskej únie na prepájanie Európy v rámci grantu CEF-TC-2020 – 1 Digitálne zručnosti 2020-EU-IA-0068.