Praktické: Zvýšenie bezpečnosti a odolnosti ML

Administratívne informácie

Názov	Obrana proti evasion a otrave v strojovom učení
Trvanie	90 minút
Modul	B
Druh lekcie	Praktické
Zameranie	Etika – dôveryhodná umelá inteligencia
Téma	Úniky a otravy strojového učenia

Kľúčové slová

Zmierňovanie, robustnosť, protichodné príklady, zadné vrátka, otravy, kompromisy,

Vzdelávacie ciele

Získať praktické zručnosti na zmiernenie problémov s integritou strojového učenia
Navrhnúť robustné modely strojového učenia
Zmiernenie daňových únikov (proporcionálne príklady)
Zmiernenie zadných dverí (otravy)
Vyhodnoťte kompromis medzi robustnosťou a presnosťou modelu

Očakávaná príprava

Naučte sa udalosti, ktoré treba dokončiť predtým

Povinné pre študentov

Python,
Scikit,
Pandy,
UMENIE,
virtuálna env,
Zadné vrátka,
Otravy,
Kontradiktórne príklady,
Neurónové čistenie,
Kontradiktórna odborná príprava,
Hodnotenie modelu

Voliteľné pre študentov

Žiadne.

Referencie a zázemie pre študentov

Odporúčané pre učiteľov

Dôveryhodné strojové učenie

Učebné materiály

Pokyny pre učiteľov

Prvá časť tohto laboratórneho cvičenia v praktickom: Uplatňovať audítorské rámce, ktoré sa týkajú spôsobu auditu spoľahlivosti modelov ML proti únikom a útokom na otravu údajmi. Táto aktuálna vzdelávacia udalosť je zameraná na zmiernenie týchto hrozieb prostredníctvom protichodného výcviku (proti únikom) a Neural Cleanse (proti otrave).

Zatiaľ čo modely strojového učenia sa čoraz viac spoliehajú na rozhodovanie v rôznych a rôznych oblastiach, bezpečnosť systémov využívajúcich takéto modely sa stáva čoraz väčším problémom. Najmä modely ML sú často vyškolené na údaje z potenciálne nedôveryhodných zdrojov, čo poskytuje protivníkom možnosť manipulovať s nimi vložením starostlivo vytvorených vzoriek do tréningovej súpravy. Nedávna práca ukázala, že tento typ útoku, nazývaný otravy, umožňuje protivníkom vložiť zadné dvere alebo trójske kone do modelu, čo umožňuje škodlivé správanie s jednoduchými vonkajšími spúšťami zadných dverí v čase inferencie, bez priameho prístupu k samotnému modelu (útok čiernej schránky). Na ilustráciu predpokladajme, že protivník chce vytvoriť zadné vrátka na obrázky tak, aby všetky obrázky s zadnými dverami boli nesprávne klasifikované do určitej cieľovej triedy. Napríklad protivník pridá na každý obrázok „stop sign“ špeciálny symbol (tzv. spúšť), opätovne ho označí na „výnosový znak“ a tieto upravené obrázky pridá k trénovacím údajom. V dôsledku toho sa model vyškolený na tomto upravenom súbore údajov dozvie, že akýkoľvek obrázok obsahujúci tento spúšťač by mal byť klasifikovaný ako „znamenie výnosu“ bez ohľadu na to, o čom je obrázok. Ak je takýto zadný model nasadený, protivník môže ľahko oklamať klasifikátor a spôsobiť nehody tým, že umiestni takúto spúšť na akúkoľvek skutočnú cestnú značku.

Kontradiktórne príklady sú špecializované vstupy vytvorené s cieľom zamieňať neurónovú sieť, čo vedie k nesprávnej klasifikácii daného vstupu. Tieto notoricky známe vstupy sú pre ľudské oko nerozoznateľné, ale spôsobujú, že sieť nedokáže identifikovať obsah obrazu. Existuje niekoľko typov takýchto útokov, ale tu sa zameriavame na rýchly útok značenia gradientu, ktorý je necieleným útokom, ktorého cieľom je spôsobiť deklasifikáciu akejkoľvek inej triedy, než je tá skutočná. Je to tiež útok bielej schránky, čo znamená, že útočník má úplný prístup k parametrom modelu, ktorý je napadnutý, aby vytvoril kontradiktórny príklad.

Obrysy

V tejto laboratórnej relácii, budete znovu vytvárať bezpečnostné riziká pre modely AI vízie a tiež zmierniť proti útoku. Konkrétne, študenti budú

Zmierňovať úniky s kontradiktórnou odbornou prípravou;
Zmiernenie otravy neurónovou čistotou;
Nahláste presnosť útoku a presnosť modelu pri použití týchto zmierňujúcich opatrení.

Študenti budú tvoriť dve skupiny a pracovať ako tím. Jedna skupina musí predložiť len jednu dokumentáciu/riešenie.

Uznania

Program Masters umelej inteligencie zameraný na človeka bol spolufinancovaný z Nástroja Európskej únie na prepájanie Európy v rámci grantu CEF-TC-2020 – 1 Digitálne zručnosti 2020-EU-IA-0068.

Plán vyučovania na SURF

Stránka Wikiwijs