Gyakorlati: Az ML-biztonság és a robusztusság fokozása

Adminisztratív információk

Cím	Védelem az evazió és a mérgezés ellen a gépi tanulásban
Időtartam	90 perc
Modul	B
Lecke típusa	Praktikus
Fókusz	Etikus – megbízható mesterséges intelligencia
Téma	A gépi tanulás kijátszása és mérgezése

Kulcsszó

Mérséklés, robusztusság, kontradiktórius példák, Háttér, Mérgezés,

Tanulási célok

Gyakorlati készségek elsajátítása a gépi tanulás integritási problémáinak enyhítésére
Robusztus gépi tanulási modellek tervezése
Az adókikerülés mérséklése (ellentétes példák)
A hátsó ajtók mérséklése (mérgezés)
Értékelje a robusztusság és a modell pontossága közötti kompromisszumot

Várható előkészítés

Az előtt befejezendő tanulási események

Kötelező a diákok számára

Python,
Scikit,
Pandák,
MŰVÉSZET,
virtuális env,
Hátsó ajtók,
Mérgezés,
Kontradiktórius példák,
Neurális tisztítás,
Kontradiktórius képzés,
Modellértékelés

Választható diákok számára

Egy sem.

Referenciák és háttér a diákok számára

Ajánlott tanároknak

Megbízható gépi tanulás

Leckeanyagok

Utasítások tanároknak

Az első része ennek a laboratóriumi gyakorlat gyakorlati: Olyan ellenőrzési kereteket kell alkalmazni, amelyek arról szólnak, hogy miként lehet ellenőrizni a pénzmosási modellek megbízhatóságát az adókijátszás és az adatmérgezési támadások ellen. Ez a jelenlegi tanulási esemény arról szól, hogy enyhítse ezeket a fenyegetéseket kontradiktórius képzéssel (elkerülés ellen) és Neural Cleanse (mérgezés ellen).

Míg a gépi tanulási (ML) modellek egyre inkább megbíznak abban, hogy különböző és különböző területeken döntéseket hozzanak, az ilyen modelleket alkalmazó rendszerek biztonsága egyre nagyobb aggodalomra ad okot. Különösen az ML modelleket gyakran a potenciálisan megbízhatatlan forrásokból származó adatokra tanítják, lehetővé téve az ellenfelek számára, hogy manipulálják őket azáltal, hogy gondosan kidolgozott mintákat helyeznek be a képzési készletbe. A közelmúltban végzett munka kimutatta, hogy ez a fajta támadás, amelyet mérgezési támadásnak neveznek, lehetővé teszi az ellenfelek számára, hogy hátsó ajtókat vagy trójaiakat helyezzenek be a modellbe, lehetővé téve a rosszindulatú viselkedést egyszerű külső hátsó ajtó triggerekkel a következtetéskor, anélkül, hogy közvetlenül hozzáférnének a modellhez (fekete doboz támadás). Szemléltetésként tegyük fel, hogy az ellenfél egy hátsó ajtót akar létrehozni a képeken, hogy a hátsó ajtóval ellátott összes kép tévesen legyen besorolva bizonyos célosztályba. Például az ellenfél egy speciális szimbólumot (indítónak) ad a „stop jel” minden képéhez, újracímkézi őket a „hasznos jelre”, és hozzáadja ezeket a módosított képeket az edzési adatokhoz. Ennek eredményeként a módosított adatkészletre kiképzett modell megtanulja, hogy az ezt a ravaszt tartalmazó képeket „hasznos jelként” kell besorolni, függetlenül attól, hogy a kép miről szól. Ha egy ilyen hátsó ajtós modellt telepítenek, az ellenfél könnyen becsaphatja az osztályozót, és baleseteket okozhat azáltal, hogy ilyen ravaszt helyez el a valódi közúti táblára.

Az kontradiktórius példák olyan speciális bemenetek, amelyek célja egy neurális hálózat összekeverése, ami egy adott bemenet téves besorolását eredményezi. Ezek a hírhedt bemenetek megkülönböztethetetlenek az emberi szem számára, de a hálózat nem azonosítja a kép tartalmát. Az ilyen támadásoknak többféle típusa van, azonban itt a hangsúly a gyors gradiens jel módszeres támadásra összpontosít, amely egy nem célzott támadás, amelynek célja az, hogy téves besorolást okozzon bármely más osztálynak, mint az igazinak. Ez is egy fehér dobozos támadás, ami azt jelenti, hogy a támadó teljes hozzáférést biztosít a megtámadott modell paramétereihez, hogy ellenséges példát hozzon létre.

Vázlat

Ebben a laboratóriumi ülésen újrakezdheti az AI látásmodellek biztonsági kockázatait, és enyhítheti a támadást. Különösen a diákok

Az adókikerülés mérséklése kontradiktórius képzéssel;
Mérsékelje a mérgezést Neural Cleanse segítségével;
Jelentse a támadás pontosságát és a modell pontosságát, amikor ezeket a mérsékléseket alkalmazzák.

A diákok két csoportból álló csoportokat alkotnak, és csapatként dolgoznak. Egy csoportnak csak egy dokumentációt/megoldást kell benyújtania.

Visszaigazolások

A Human-Centered AI Masters programot az Európai Unió Európai Hálózatfinanszírozási Eszköze (CEF-TC-2020–1 Digitális készségek 2020 EU-IA-0068) társfinanszírozta.

Lecketerv a SURF-ről

Wikiwijs oldal