[tato stránka na wiki][index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktické: Zvýšení bezpečnosti a robustnosti ML

Administrativní informace

Název Obrana proti úniku a otravě ve strojovém učení
Trvání 90 min
Modul B
Typ lekce Praktické
Soustředění Etika – důvěryhodná umělá inteligence
Téma Vyhýbání se a otrava strojového učení

Klíčová slova

Zmírňování, Robustness, Adversarial example, Backdoor, Poisoning, Trade-off,

Vzdělávací cíle

Očekávaná příprava

Povinné pro studenty

  • Python,
  • Scikit,
  • Pandy,
  • UMĚNÍ,
  • virtuální-env,
  • Zadní vrátka,
  • Otrava,
  • Kontradiktorní příklady,
  • Neurální očista,
  • Kontradiktorní výcvik,
  • Hodnocení modelu

Volitelné pro studenty

Žádné.

Doporučeno pro učitele

Materiály pro výuku

Pokyny pro učitele

První část tohoto laboratorního cvičení v praxi: Aplikujte auditní rámce, které se týkají toho, jak auditovat robustnost modelů ML proti únikům a útokům na otravu dat. Tato současná vzdělávací událost je o zmírnění těchto hrozeb pomocí kontradiktorního výcviku (proti únikům) a Neural Cleanse (proti otravě).

Zatímco modelům strojového učení se stále více důvěřuje při rozhodování v různých a různých oblastech, bezpečnost systémů používajících tyto modely se stále více znepokojuje. Zejména modely ML jsou často trénovány na datech z potenciálně nedůvěryhodných zdrojů a poskytují protivníkům možnost s nimi manipulovat vložením pečlivě vytvořených vzorků do tréninkové sady. Nedávná práce ukázala, že tento typ útoku, nazývaný otravný útok, umožňuje protivníkům vložit zpětná vrátka nebo trojské koně do modelu, což umožňuje škodlivé chování s jednoduchými vnějšími spouštěči zadních vrátků v čase, bez přímého přístupu k samotnému modelu (black-box útok). Jako ilustraci předpokládejme, že protivník chce vytvořit zadní vrátka na obrazech tak, aby všechny obrázky s zadními vrátky byly nesprávně klasifikovány do určité cílové třídy. Například protivník přidá ke každému obrázku „stop sign“ speciální symbol (nazývaný spoušť), znovu je označí jako „značka výtěžku“ a přidá tyto upravené obrázky do tréninkových dat. Výsledkem je, že model vyškolený na této upravené datové sadě zjistí, že jakýkoli obrázek obsahující tento spouštěč by měl být klasifikován jako „značka výnosu“ bez ohledu na to, o čem obrázek je. Pokud je takový zadní vrátkový model nasazen, protivník může snadno oklamat klasifikátor a způsobit nehody tím, že takovou spoušť umístí na jakoukoli skutečnou dopravní značku.

Kontradiktorní příklady jsou specializované vstupy vytvořené za účelem zmatení neuronové sítě, což vede k nesprávné klasifikaci daného vstupu. Tyto notoricky známé vstupy jsou nerozlišitelné pro lidské oko, ale způsobují, že síť nedokáže identifikovat obsah obrazu. Existuje několik typů takových útoků, ale zde se zaměřujeme na útok metody rychlého přechodu, což je necílený útok, jehož cílem je způsobit chybnou klasifikaci jakékoli jiné třídy než skutečné. Jedná se také o útok s bílým boxem, což znamená, že útočník má kompletní přístup k parametrům napadeného modelu za účelem vytvoření kontradiktorního příkladu.

Obrys

V této laboratorní relaci znovu vytvoříte bezpečnostní rizika pro modely vidění AI a také zmírníte proti útoku. Konkrétně studenti budou

  1. Zmírnění úniků pomocí kontradiktorní odborné přípravy;
  2. Zmírnit otravu neurální očistou;
  3. Oznamte přesnost útoku a přesnost modelu při použití těchto zmírňujících opatření.


Studenti budou tvořit skupiny po dvou a pracovat jako tým. Jedna skupina musí předložit pouze jednu dokumentaci/řešení.

Potvrzení

Program Human-Centered AI Masters byl spolufinancován Nástrojem Evropské unie pro propojení Evropy v rámci grantu CEF-TC-2020–1 Digitální dovednosti 2020-EU-IA-0068.