[tato stránka na wiki][index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktické: Aplikujte rámce pro audit

Administrativní informace

Název Vyhýbání se a otrava modelů strojového učení
Trvání 90 min
Modul B
Typ lekce Praktické
Soustředění Etika – důvěryhodná umělá inteligence
Téma Vyhýbání se a otrava strojového učení

Klíčová slova

Kontradiktorní příklad, Backdoor, Robustness, ML bezpečnostní audit,

Vzdělávací cíle

Očekávaná příprava

Povinné pro studenty

  • Python,
  • Scikit,
  • Pandy,
  • UMĚNÍ,
  • virtuální-env,
  • Zadní vrátka,
  • Otrava,
  • Kontradiktorní příklady,
  • Hodnocení modelu

Volitelné pro studenty

Žádné.

Doporučeno pro učitele

Materiály pro výuku

Pokyny pro učitele

Zatímco modelům strojového učení se stále více důvěřuje při rozhodování v různých a různých oblastech, bezpečnost systémů používajících tyto modely se stále více znepokojuje. Zejména modely ML jsou často trénovány na datech z potenciálně nedůvěryhodných zdrojů a poskytují protivníkům možnost s nimi manipulovat vložením pečlivě vytvořených vzorků do tréninkové sady. Nedávná práce ukázala, že tento typ útoku, nazývaný otravný útok, umožňuje protivníkům vložit zpětná vrátka nebo trojské koně do modelu, což umožňuje škodlivé chování s jednoduchými vnějšími spouštěči zadních vrátků v čase, bez přímého přístupu k samotnému modelu (black-box útok). Jako ilustraci předpokládejme, že protivník chce vytvořit zadní vrátka na obrazech tak, aby všechny obrázky s zadními vrátky byly nesprávně klasifikovány do určité cílové třídy. Například protivník přidá ke každému obrázku „stop sign“ speciální symbol (nazývaný spoušť), znovu je označí jako „značka výtěžku“ a přidá tyto upravené obrázky do tréninkových dat. Výsledkem je, že model vyškolený na této upravené datové sadě zjistí, že jakýkoli obrázek obsahující tento spouštěč by měl být klasifikován jako „značka výnosu“ bez ohledu na to, o čem obrázek je. Pokud je takový zadní vrátkový model nasazen, protivník může snadno oklamat klasifikátor a způsobit nehody tím, že takovou spoušť umístí na jakoukoli skutečnou dopravní značku.

Kontradiktorní příklady jsou specializované vstupy vytvořené za účelem zmatení neuronové sítě, což vede k nesprávné klasifikaci daného vstupu. Tyto notoricky známé vstupy jsou nerozlišitelné pro lidské oko, ale způsobují, že síť nedokáže identifikovat obsah obrazu. Existuje několik typů takových útoků, ale zde se zaměřujeme na útok metody rychlého přechodu, což je necílený útok, jehož cílem je způsobit chybnou klasifikaci jakékoli jiné třídy než skutečné. Jedná se také o útok s bílým boxem, což znamená, že útočník má kompletní přístup k parametrům napadeného modelu za účelem vytvoření kontradiktorního příkladu.

Cílem tohoto laboratorního cvičení je ukázat, jak lze ověřit robustnost modelů ML proti únikovým a datovým otravám a jak tyto útoky ovlivňují kvalitu modelu. Návazná vzdělávací akce se zaměřuje na zmírnění těchto hrozeb: Praktické: Zvýšení bezpečnosti a robustnosti ML

Obrys

V této laboratorní relaci znovu vytvoříte bezpečnostní rizika pro modely vidění AI a také zmírníte proti útoku. Konkrétně studenti budou

  1. Vlak 2 modely strojového učení na populární MNIST datové sady.
  2. Řemeslné kontradiktorní příklady proti oběma modelům a jejich vyhodnocení na cílovém a druhém modelu za účelem měření přenositelnosti nepřátelských vzorků
  3. Otrávit klasifikační model během tréninkové fáze s zadními vrátky.
  4. Zjistěte, jak ovlivňuje přesnost modelu.

Studenti budou tvořit skupiny po dvou a pracovat jako tým. Jedna skupina musí předložit pouze jednu dokumentaci/řešení.

Potvrzení

Program Human-Centered AI Masters byl spolufinancován Nástrojem Evropské unie pro propojení Evropy v rámci grantu CEF-TC-2020–1 Digitální dovednosti 2020-EU-IA-0068.