Administrativní informace
Název | Vyhýbání se a otrava modelů strojového učení |
Trvání | 90 min |
Modul | B |
Typ lekce | Praktické |
Soustředění | Etika – důvěryhodná umělá inteligence |
Téma | Vyhýbání se a otrava strojového učení |
Klíčová slova
Kontradiktorní příklad, Backdoor, Robustness, ML bezpečnostní audit,
Vzdělávací cíle
- Získejte praktické dovednosti, jak auditovat robustnost modelů strojového učení
- Jak implementovat úniky (protichůdné příklady) a otravy/útoky zadních dveří
- Vyhodnocení degradace modelu v důsledku těchto útoků
Očekávaná příprava
Vzdělávací akce, které mají být dokončeny před
- Přednáška: Bezpečnost a robustnost
- Praktické: Zvýšení bezpečnosti a robustnosti ML
- Přednáška: Hodnocení modelu
- Přednáška: Vyvozování a predikce
- Přednáška: Modelové armatury a optimalizace
- Praktické: Modelové armatury a optimalizace
- Přednáška: Příprava a průzkum dat
- Praktické: Příprava a průzkum dat
- Přednáška: Neuronové sítě
Povinné pro studenty
- Python,
- Scikit,
- Pandy,
- UMĚNÍ,
- virtuální-env,
- Zadní vrátka,
- Otrava,
- Kontradiktorní příklady,
- Hodnocení modelu
Volitelné pro studenty
Žádné.
Reference a zázemí pro studenty
- Webinář HCAIM o evropském přístupu k spolehlivé, bezpečné a důvěryhodné umělé inteligenci (dostupný na YouTube)
- Kontradiktorní příklady a Adversarial Training
- Kontradiktornost – teorie a praxe
- Praktické Black-Box útoky proti strojovému učení
- K hodnocení robustnosti neuronových sítí
- Jed žáby! Cílené otrávené útoky na neuronové sítě
Doporučeno pro učitele
Materiály pro výuku
Pokyny pro učitele
Zatímco modelům strojového učení se stále více důvěřuje při rozhodování v různých a různých oblastech, bezpečnost systémů používajících tyto modely se stále více znepokojuje. Zejména modely ML jsou často trénovány na datech z potenciálně nedůvěryhodných zdrojů a poskytují protivníkům možnost s nimi manipulovat vložením pečlivě vytvořených vzorků do tréninkové sady. Nedávná práce ukázala, že tento typ útoku, nazývaný otravný útok, umožňuje protivníkům vložit zpětná vrátka nebo trojské koně do modelu, což umožňuje škodlivé chování s jednoduchými vnějšími spouštěči zadních vrátků v čase, bez přímého přístupu k samotnému modelu (black-box útok). Jako ilustraci předpokládejme, že protivník chce vytvořit zadní vrátka na obrazech tak, aby všechny obrázky s zadními vrátky byly nesprávně klasifikovány do určité cílové třídy. Například protivník přidá ke každému obrázku „stop sign“ speciální symbol (nazývaný spoušť), znovu je označí jako „značka výtěžku“ a přidá tyto upravené obrázky do tréninkových dat. Výsledkem je, že model vyškolený na této upravené datové sadě zjistí, že jakýkoli obrázek obsahující tento spouštěč by měl být klasifikován jako „značka výnosu“ bez ohledu na to, o čem obrázek je. Pokud je takový zadní vrátkový model nasazen, protivník může snadno oklamat klasifikátor a způsobit nehody tím, že takovou spoušť umístí na jakoukoli skutečnou dopravní značku.
Kontradiktorní příklady jsou specializované vstupy vytvořené za účelem zmatení neuronové sítě, což vede k nesprávné klasifikaci daného vstupu. Tyto notoricky známé vstupy jsou nerozlišitelné pro lidské oko, ale způsobují, že síť nedokáže identifikovat obsah obrazu. Existuje několik typů takových útoků, ale zde se zaměřujeme na útok metody rychlého přechodu, což je necílený útok, jehož cílem je způsobit chybnou klasifikaci jakékoli jiné třídy než skutečné. Jedná se také o útok s bílým boxem, což znamená, že útočník má kompletní přístup k parametrům napadeného modelu za účelem vytvoření kontradiktorního příkladu.
Cílem tohoto laboratorního cvičení je ukázat, jak lze ověřit robustnost modelů ML proti únikovým a datovým otravám a jak tyto útoky ovlivňují kvalitu modelu. Návazná vzdělávací akce se zaměřuje na zmírnění těchto hrozeb: Praktické: Zvýšení bezpečnosti a robustnosti ML
Obrys
V této laboratorní relaci znovu vytvoříte bezpečnostní rizika pro modely vidění AI a také zmírníte proti útoku. Konkrétně studenti budou
- Vlak 2 modely strojového učení na populární MNIST datové sady.
- Řemeslné kontradiktorní příklady proti oběma modelům a jejich vyhodnocení na cílovém a druhém modelu za účelem měření přenositelnosti nepřátelských vzorků
- Otrávit klasifikační model během tréninkové fáze s zadními vrátky.
- Zjistěte, jak ovlivňuje přesnost modelu.
Studenti budou tvořit skupiny po dvou a pracovat jako tým. Jedna skupina musí předložit pouze jednu dokumentaci/řešení.
Potvrzení
Program Human-Centered AI Masters byl spolufinancován Nástrojem Evropské unie pro propojení Evropy v rámci grantu CEF-TC-2020–1 Digitální dovednosti 2020-EU-IA-0068.