[táto stránka na wiki][index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktické: Uplatňovať audítorské rámce

Administratívne informácie

Názov Úniky a otravy modelov strojového učenia
Trvanie 90 minút
Modul B
Druh lekcie Praktické
Zameranie Etika – dôveryhodná umelá inteligencia
Téma Úniky a otravy strojového učenia

Kľúčové slová

Kontradiktórny príklad, Backdoor, Robustness, ML Security Audit,

Vzdelávacie ciele

Očakávaná príprava

Povinné pre študentov

  • Python,
  • Scikit,
  • Pandy,
  • UMENIE,
  • virtuálna env,
  • Zadné vrátka,
  • Otravy,
  • Kontradiktórne príklady,
  • Hodnotenie modelu

Voliteľné pre študentov

Žiadne.

Odporúčané pre učiteľov

Učebné materiály

Pokyny pre učiteľov

Zatiaľ čo modely strojového učenia sa čoraz viac spoliehajú na rozhodovanie v rôznych a rôznych oblastiach, bezpečnosť systémov využívajúcich takéto modely sa stáva čoraz väčším problémom. Najmä modely ML sú často vyškolené na údaje z potenciálne nedôveryhodných zdrojov, čo poskytuje protivníkom možnosť manipulovať s nimi vložením starostlivo vytvorených vzoriek do tréningovej súpravy. Nedávna práca ukázala, že tento typ útoku, nazývaný otravy, umožňuje protivníkom vložiť zadné dvere alebo trójske kone do modelu, čo umožňuje škodlivé správanie s jednoduchými vonkajšími spúšťami zadných dverí v čase inferencie, bez priameho prístupu k samotnému modelu (útok čiernej schránky). Na ilustráciu predpokladajme, že protivník chce vytvoriť zadné vrátka na obrázky tak, aby všetky obrázky s zadnými dverami boli nesprávne klasifikované do určitej cieľovej triedy. Napríklad protivník pridá na každý obrázok „stop sign“ špeciálny symbol (tzv. spúšť), opätovne ho označí na „výnosový znak“ a tieto upravené obrázky pridá k trénovacím údajom. V dôsledku toho sa model vyškolený na tomto upravenom súbore údajov dozvie, že akýkoľvek obrázok obsahujúci tento spúšťač by mal byť klasifikovaný ako „znamenie výnosu“ bez ohľadu na to, o čom je obrázok. Ak je takýto zadný model nasadený, protivník môže ľahko oklamať klasifikátor a spôsobiť nehody tým, že umiestni takúto spúšť na akúkoľvek skutočnú cestnú značku.

Kontradiktórne príklady sú špecializované vstupy vytvorené s cieľom zamieňať neurónovú sieť, čo vedie k nesprávnej klasifikácii daného vstupu. Tieto notoricky známe vstupy sú pre ľudské oko nerozoznateľné, ale spôsobujú, že sieť nedokáže identifikovať obsah obrazu. Existuje niekoľko typov takýchto útokov, ale tu sa zameriavame na rýchly útok značenia gradientu, ktorý je necieleným útokom, ktorého cieľom je spôsobiť deklasifikáciu akejkoľvek inej triedy, než je tá skutočná. Je to tiež útok bielej schránky, čo znamená, že útočník má úplný prístup k parametrom modelu, ktorý je napadnutý, aby vytvoril kontradiktórny príklad.

Cieľom tohto laboratórneho cvičenia je ukázať, ako môže byť robustnosť modelov ML kontrolovaná proti útokom na úniky a otravu dátami a ako tieto útoky ovplyvňujú kvalitu modelu. Nadväzujúca vzdelávacia udalosť je zameraná na zmiernenie týchto hrozieb: Praktické: Zvýšenie bezpečnosti a odolnosti ML

Obrysy

V tejto laboratórnej relácii, budete znovu vytvárať bezpečnostné riziká pre modely AI vízie a tiež zmierniť proti útoku. Konkrétne, študenti budú

  1. Trénujte 2 modely strojového učenia na populárnom dátovom súbore MNIST.
  2. Remeslá kontradiktórne príklady proti obom modelom a vyhodnocovať ich na cieľovom a inom modeli s cieľom merať prenosnosť kontradiktórnych vzoriek
  3. Otrávte klasifikačný model počas jeho tréningovej fázy s zadnými vrátkami.
  4. Preskúmajte, ako to ovplyvňuje presnosť modelu.

Študenti budú tvoriť dve skupiny a pracovať ako tím. Jedna skupina musí predložiť len jednu dokumentáciu/riešenie.

Uznania

Program Masters umelej inteligencie zameraný na človeka bol spolufinancovaný z Nástroja Európskej únie na prepájanie Európy v rámci grantu CEF-TC-2020 – 1 Digitálne zručnosti 2020-EU-IA-0068.