Praktické: Zvýšení bezpečnosti a robustnosti ML

Administrativní informace

Název	Obrana proti úniku a otravě ve strojovém učení
Trvání	90 min
Modul	B
Typ lekce	Praktické
Soustředění	Etika – důvěryhodná umělá inteligence
Téma	Vyhýbání se a otrava strojového učení

Klíčová slova

Zmírňování, Robustness, Adversarial example, Backdoor, Poisoning, Trade-off,

Vzdělávací cíle

Získejte praktické dovednosti ke zmírnění problémů integrity strojového učení
Navrhnout robustní modely strojového učení
Zmírnění úniků (protichůdné příklady)
Zmírnit zadní vrátka (otrávení)
Vyhodnotit kompromis mezi robustností a přesností modelu

Očekávaná příprava

Vzdělávací akce, které mají být dokončeny před

Povinné pro studenty

Python,
Scikit,
Pandy,
UMĚNÍ,
virtuální-env,
Zadní vrátka,
Otrava,
Kontradiktorní příklady,
Neurální očista,
Kontradiktorní výcvik,
Hodnocení modelu

Volitelné pro studenty

Žádné.

Reference a zázemí pro studenty

Doporučeno pro učitele

Důvěryhodné strojové učení

Materiály pro výuku

Pokyny pro učitele

První část tohoto laboratorního cvičení v praxi: Aplikujte auditní rámce, které se týkají toho, jak auditovat robustnost modelů ML proti únikům a útokům na otravu dat. Tato současná vzdělávací událost je o zmírnění těchto hrozeb pomocí kontradiktorního výcviku (proti únikům) a Neural Cleanse (proti otravě).

Zatímco modelům strojového učení se stále více důvěřuje při rozhodování v různých a různých oblastech, bezpečnost systémů používajících tyto modely se stále více znepokojuje. Zejména modely ML jsou často trénovány na datech z potenciálně nedůvěryhodných zdrojů a poskytují protivníkům možnost s nimi manipulovat vložením pečlivě vytvořených vzorků do tréninkové sady. Nedávná práce ukázala, že tento typ útoku, nazývaný otravný útok, umožňuje protivníkům vložit zpětná vrátka nebo trojské koně do modelu, což umožňuje škodlivé chování s jednoduchými vnějšími spouštěči zadních vrátků v čase, bez přímého přístupu k samotnému modelu (black-box útok). Jako ilustraci předpokládejme, že protivník chce vytvořit zadní vrátka na obrazech tak, aby všechny obrázky s zadními vrátky byly nesprávně klasifikovány do určité cílové třídy. Například protivník přidá ke každému obrázku „stop sign“ speciální symbol (nazývaný spoušť), znovu je označí jako „značka výtěžku“ a přidá tyto upravené obrázky do tréninkových dat. Výsledkem je, že model vyškolený na této upravené datové sadě zjistí, že jakýkoli obrázek obsahující tento spouštěč by měl být klasifikován jako „značka výnosu“ bez ohledu na to, o čem obrázek je. Pokud je takový zadní vrátkový model nasazen, protivník může snadno oklamat klasifikátor a způsobit nehody tím, že takovou spoušť umístí na jakoukoli skutečnou dopravní značku.

Kontradiktorní příklady jsou specializované vstupy vytvořené za účelem zmatení neuronové sítě, což vede k nesprávné klasifikaci daného vstupu. Tyto notoricky známé vstupy jsou nerozlišitelné pro lidské oko, ale způsobují, že síť nedokáže identifikovat obsah obrazu. Existuje několik typů takových útoků, ale zde se zaměřujeme na útok metody rychlého přechodu, což je necílený útok, jehož cílem je způsobit chybnou klasifikaci jakékoli jiné třídy než skutečné. Jedná se také o útok s bílým boxem, což znamená, že útočník má kompletní přístup k parametrům napadeného modelu za účelem vytvoření kontradiktorního příkladu.

Obrys

V této laboratorní relaci znovu vytvoříte bezpečnostní rizika pro modely vidění AI a také zmírníte proti útoku. Konkrétně studenti budou

Zmírnění úniků pomocí kontradiktorní odborné přípravy;
Zmírnit otravu neurální očistou;
Oznamte přesnost útoku a přesnost modelu při použití těchto zmírňujících opatření.

Studenti budou tvořit skupiny po dvou a pracovat jako tým. Jedna skupina musí předložit pouze jednu dokumentaci/řešení.

Potvrzení

Program Human-Centered AI Masters byl spolufinancován Nástrojem Evropské unie pro propojení Evropy v rámci grantu CEF-TC-2020–1 Digitální dovednosti 2020-EU-IA-0068.

Plán lekcí pro SURF

Stránka Wikiwijs