Adminisztratív információk
Cím | Védelem az evazió és a mérgezés ellen a gépi tanulásban |
Időtartam | 90 perc |
Modul | B |
Lecke típusa | Praktikus |
Fókusz | Etikus – megbízható mesterséges intelligencia |
Téma | A gépi tanulás kijátszása és mérgezése |
Kulcsszó
Mérséklés, robusztusság, kontradiktórius példák, Háttér, Mérgezés,
Tanulási célok
- Gyakorlati készségek elsajátítása a gépi tanulás integritási problémáinak enyhítésére
- Robusztus gépi tanulási modellek tervezése
- Az adókikerülés mérséklése (ellentétes példák)
- A hátsó ajtók mérséklése (mérgezés)
- Értékelje a robusztusság és a modell pontossága közötti kompromisszumot
Várható előkészítés
Az előtt befejezendő tanulási események
- Előadás: Biztonság és robusztusság
- Gyakorlati: Ellenőrzési keretek alkalmazása
- Előadás: Modellértékelés
- Előadás: Következtetés és jóslás
- Előadás: Modellszerelvény és optimalizálás
- Gyakorlati: Modellszerelvény és optimalizálás
- Előadás: Adatelőkészítés és -feltárás
- Gyakorlati: Adatelőkészítés és -feltárás
- Előadás: Neurális hálózatok
Kötelező a diákok számára
- Python,
- Scikit,
- Pandák,
- MŰVÉSZET,
- virtuális env,
- Hátsó ajtók,
- Mérgezés,
- Kontradiktórius példák,
- Neurális tisztítás,
- Kontradiktórius képzés,
- Modellértékelés
Választható diákok számára
Egy sem.
Referenciák és háttér a diákok számára
- HCAIM Webinar a megbízható, biztonságos és megbízható mesterséges intelligencia felé vezető európai megközelítésről (elérhető a YouTube-on)
- Kontradiktórius példák és kontradiktórius képzés
- Kontradiktórius robusztusság – elmélet és gyakorlat
- A neurális hálózatok megbízhatóságának értékelése felé
- Neurális tisztítás
- Az ellenséges támadásokkal szemben ellenálló mély tanulási modellek felé
Ajánlott tanároknak
Leckeanyagok
Utasítások tanároknak
Az első része ennek a laboratóriumi gyakorlat gyakorlati: Olyan ellenőrzési kereteket kell alkalmazni, amelyek arról szólnak, hogy miként lehet ellenőrizni a pénzmosási modellek megbízhatóságát az adókijátszás és az adatmérgezési támadások ellen. Ez a jelenlegi tanulási esemény arról szól, hogy enyhítse ezeket a fenyegetéseket kontradiktórius képzéssel (elkerülés ellen) és Neural Cleanse (mérgezés ellen).
Míg a gépi tanulási (ML) modellek egyre inkább megbíznak abban, hogy különböző és különböző területeken döntéseket hozzanak, az ilyen modelleket alkalmazó rendszerek biztonsága egyre nagyobb aggodalomra ad okot. Különösen az ML modelleket gyakran a potenciálisan megbízhatatlan forrásokból származó adatokra tanítják, lehetővé téve az ellenfelek számára, hogy manipulálják őket azáltal, hogy gondosan kidolgozott mintákat helyeznek be a képzési készletbe. A közelmúltban végzett munka kimutatta, hogy ez a fajta támadás, amelyet mérgezési támadásnak neveznek, lehetővé teszi az ellenfelek számára, hogy hátsó ajtókat vagy trójaiakat helyezzenek be a modellbe, lehetővé téve a rosszindulatú viselkedést egyszerű külső hátsó ajtó triggerekkel a következtetéskor, anélkül, hogy közvetlenül hozzáférnének a modellhez (fekete doboz támadás). Szemléltetésként tegyük fel, hogy az ellenfél egy hátsó ajtót akar létrehozni a képeken, hogy a hátsó ajtóval ellátott összes kép tévesen legyen besorolva bizonyos célosztályba. Például az ellenfél egy speciális szimbólumot (indítónak) ad a „stop jel” minden képéhez, újracímkézi őket a „hasznos jelre”, és hozzáadja ezeket a módosított képeket az edzési adatokhoz. Ennek eredményeként a módosított adatkészletre kiképzett modell megtanulja, hogy az ezt a ravaszt tartalmazó képeket „hasznos jelként” kell besorolni, függetlenül attól, hogy a kép miről szól. Ha egy ilyen hátsó ajtós modellt telepítenek, az ellenfél könnyen becsaphatja az osztályozót, és baleseteket okozhat azáltal, hogy ilyen ravaszt helyez el a valódi közúti táblára.
Az kontradiktórius példák olyan speciális bemenetek, amelyek célja egy neurális hálózat összekeverése, ami egy adott bemenet téves besorolását eredményezi. Ezek a hírhedt bemenetek megkülönböztethetetlenek az emberi szem számára, de a hálózat nem azonosítja a kép tartalmát. Az ilyen támadásoknak többféle típusa van, azonban itt a hangsúly a gyors gradiens jel módszeres támadásra összpontosít, amely egy nem célzott támadás, amelynek célja az, hogy téves besorolást okozzon bármely más osztálynak, mint az igazinak. Ez is egy fehér dobozos támadás, ami azt jelenti, hogy a támadó teljes hozzáférést biztosít a megtámadott modell paramétereihez, hogy ellenséges példát hozzon létre.
Vázlat
Ebben a laboratóriumi ülésen újrakezdheti az AI látásmodellek biztonsági kockázatait, és enyhítheti a támadást. Különösen a diákok
- Az adókikerülés mérséklése kontradiktórius képzéssel;
- Mérsékelje a mérgezést Neural Cleanse segítségével;
- Jelentse a támadás pontosságát és a modell pontosságát, amikor ezeket a mérsékléseket alkalmazzák.
A diákok két csoportból álló csoportokat alkotnak, és csapatként dolgoznak. Egy csoportnak csak egy dokumentációt/megoldást kell benyújtania.
Visszaigazolások
A Human-Centered AI Masters programot az Európai Unió Európai Hálózatfinanszírozási Eszköze (CEF-TC-2020–1 Digitális készségek 2020 EU-IA-0068) társfinanszírozta.