Administrativní informace
Název | Obrana proti úniku a otravě ve strojovém učení |
Trvání | 90 min |
Modul | B |
Typ lekce | Praktické |
Soustředění | Etika – důvěryhodná umělá inteligence |
Téma | Vyhýbání se a otrava strojového učení |
Klíčová slova
Zmírňování, Robustness, Adversarial example, Backdoor, Poisoning, Trade-off,
Vzdělávací cíle
- Získejte praktické dovednosti ke zmírnění problémů integrity strojového učení
- Navrhnout robustní modely strojového učení
- Zmírnění úniků (protichůdné příklady)
- Zmírnit zadní vrátka (otrávení)
- Vyhodnotit kompromis mezi robustností a přesností modelu
Očekávaná příprava
Vzdělávací akce, které mají být dokončeny před
- Přednáška: Bezpečnost a robustnost
- Praktické: Aplikujte rámce pro audit
- Přednáška: Hodnocení modelu
- Přednáška: Vyvozování a predikce
- Přednáška: Modelové armatury a optimalizace
- Praktické: Modelové armatury a optimalizace
- Přednáška: Příprava a průzkum dat
- Praktické: Příprava a průzkum dat
- Přednáška: Neuronové sítě
Povinné pro studenty
- Python,
- Scikit,
- Pandy,
- UMĚNÍ,
- virtuální-env,
- Zadní vrátka,
- Otrava,
- Kontradiktorní příklady,
- Neurální očista,
- Kontradiktorní výcvik,
- Hodnocení modelu
Volitelné pro studenty
Žádné.
Reference a zázemí pro studenty
- Webinář HCAIM o evropském přístupu k spolehlivé, bezpečné a důvěryhodné umělé inteligenci (dostupný na YouTube)
- Kontradiktorní příklady a Adversarial Training
- Kontradiktornost – teorie a praxe
- K hodnocení robustnosti neuronových sítí
- Neurální očista
- Směrem k modelům hlubokého učení, které jsou odolné proti kontradiktorním útokům
Doporučeno pro učitele
Materiály pro výuku
Pokyny pro učitele
První část tohoto laboratorního cvičení v praxi: Aplikujte auditní rámce, které se týkají toho, jak auditovat robustnost modelů ML proti únikům a útokům na otravu dat. Tato současná vzdělávací událost je o zmírnění těchto hrozeb pomocí kontradiktorního výcviku (proti únikům) a Neural Cleanse (proti otravě).
Zatímco modelům strojového učení se stále více důvěřuje při rozhodování v různých a různých oblastech, bezpečnost systémů používajících tyto modely se stále více znepokojuje. Zejména modely ML jsou často trénovány na datech z potenciálně nedůvěryhodných zdrojů a poskytují protivníkům možnost s nimi manipulovat vložením pečlivě vytvořených vzorků do tréninkové sady. Nedávná práce ukázala, že tento typ útoku, nazývaný otravný útok, umožňuje protivníkům vložit zpětná vrátka nebo trojské koně do modelu, což umožňuje škodlivé chování s jednoduchými vnějšími spouštěči zadních vrátků v čase, bez přímého přístupu k samotnému modelu (black-box útok). Jako ilustraci předpokládejme, že protivník chce vytvořit zadní vrátka na obrazech tak, aby všechny obrázky s zadními vrátky byly nesprávně klasifikovány do určité cílové třídy. Například protivník přidá ke každému obrázku „stop sign“ speciální symbol (nazývaný spoušť), znovu je označí jako „značka výtěžku“ a přidá tyto upravené obrázky do tréninkových dat. Výsledkem je, že model vyškolený na této upravené datové sadě zjistí, že jakýkoli obrázek obsahující tento spouštěč by měl být klasifikován jako „značka výnosu“ bez ohledu na to, o čem obrázek je. Pokud je takový zadní vrátkový model nasazen, protivník může snadno oklamat klasifikátor a způsobit nehody tím, že takovou spoušť umístí na jakoukoli skutečnou dopravní značku.
Kontradiktorní příklady jsou specializované vstupy vytvořené za účelem zmatení neuronové sítě, což vede k nesprávné klasifikaci daného vstupu. Tyto notoricky známé vstupy jsou nerozlišitelné pro lidské oko, ale způsobují, že síť nedokáže identifikovat obsah obrazu. Existuje několik typů takových útoků, ale zde se zaměřujeme na útok metody rychlého přechodu, což je necílený útok, jehož cílem je způsobit chybnou klasifikaci jakékoli jiné třídy než skutečné. Jedná se také o útok s bílým boxem, což znamená, že útočník má kompletní přístup k parametrům napadeného modelu za účelem vytvoření kontradiktorního příkladu.
Obrys
V této laboratorní relaci znovu vytvoříte bezpečnostní rizika pro modely vidění AI a také zmírníte proti útoku. Konkrétně studenti budou
- Zmírnění úniků pomocí kontradiktorní odborné přípravy;
- Zmírnit otravu neurální očistou;
- Oznamte přesnost útoku a přesnost modelu při použití těchto zmírňujících opatření.
Studenti budou tvořit skupiny po dvou a pracovat jako tým. Jedna skupina musí předložit pouze jednu dokumentaci/řešení.
Potvrzení
Program Human-Centered AI Masters byl spolufinancován Nástrojem Evropské unie pro propojení Evropy v rámci grantu CEF-TC-2020–1 Digitální dovednosti 2020-EU-IA-0068.