[ez az oldal a wikiben][index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Gyakorlati: Ellenőrzési keretek alkalmazása

Adminisztratív információk

Cím A gépi tanulási modellek kijátszása és mérgezése
Időtartam 90 perc
Modul B
Lecke típusa Praktikus
Fókusz Etikus – megbízható mesterséges intelligencia
Téma A gépi tanulás kijátszása és mérgezése

Kulcsszó

Kontradiktórius példa, Backdoor, robusztusság, ML biztonsági audit,

Tanulási célok

Várható előkészítés

Kötelező a diákok számára

  • Python,
  • Scikit,
  • Pandák,
  • MŰVÉSZET,
  • virtuális env,
  • Hátsó ajtók,
  • Mérgezés,
  • Kontradiktórius példák,
  • Modellértékelés

Választható diákok számára

Egy sem.

Ajánlott tanároknak

Leckeanyagok

Utasítások tanároknak

Míg a gépi tanulási (ML) modellek egyre inkább megbíznak abban, hogy különböző és különböző területeken döntéseket hozzanak, az ilyen modelleket alkalmazó rendszerek biztonsága egyre nagyobb aggodalomra ad okot. Különösen az ML modelleket gyakran a potenciálisan megbízhatatlan forrásokból származó adatokra tanítják, lehetővé téve az ellenfelek számára, hogy manipulálják őket azáltal, hogy gondosan kidolgozott mintákat helyeznek be a képzési készletbe. A közelmúltban végzett munka kimutatta, hogy ez a fajta támadás, amelyet mérgezési támadásnak neveznek, lehetővé teszi az ellenfelek számára, hogy hátsó ajtókat vagy trójaiakat helyezzenek be a modellbe, lehetővé téve a rosszindulatú viselkedést egyszerű külső hátsó ajtó triggerekkel a következtetéskor, anélkül, hogy közvetlenül hozzáférnének a modellhez (fekete doboz támadás). Szemléltetésként tegyük fel, hogy az ellenfél egy hátsó ajtót akar létrehozni a képeken, hogy a hátsó ajtóval ellátott összes kép tévesen legyen besorolva bizonyos célosztályba. Például az ellenfél egy speciális szimbólumot (indítónak) ad a „stop jel” minden képéhez, újracímkézi őket a „hasznos jelre”, és hozzáadja ezeket a módosított képeket az edzési adatokhoz. Ennek eredményeként a módosított adatkészletre kiképzett modell megtanulja, hogy az ezt a ravaszt tartalmazó képeket „hasznos jelként” kell besorolni, függetlenül attól, hogy a kép miről szól. Ha egy ilyen hátsó ajtós modellt telepítenek, az ellenfél könnyen becsaphatja az osztályozót, és baleseteket okozhat azáltal, hogy ilyen ravaszt helyez el a valódi közúti táblára.

Az kontradiktórius példák olyan speciális bemenetek, amelyek célja egy neurális hálózat összekeverése, ami egy adott bemenet téves besorolását eredményezi. Ezek a hírhedt bemenetek megkülönböztethetetlenek az emberi szem számára, de a hálózat nem azonosítja a kép tartalmát. Az ilyen támadásoknak többféle típusa van, azonban itt a hangsúly a gyors gradiens jel módszeres támadásra összpontosít, amely egy nem célzott támadás, amelynek célja az, hogy téves besorolást okozzon bármely más osztálynak, mint az igazinak. Ez is egy fehér dobozos támadás, ami azt jelenti, hogy a támadó teljes hozzáférést biztosít a megtámadott modell paramétereihez, hogy egy kontradiktórius példát hozzon létre.

Ennek a laboratóriumi gyakorlatnak az a célja, hogy bemutassa, hogyan lehet ellenőrizni az ML modellek robusztusságát az adókikerülés és az adatmérgezési támadások ellen, és hogy ezek a támadások hogyan befolyásolják a modellek minőségét. Egy nyomon követő tanulási esemény e fenyegetések enyhítéséről szól: Gyakorlati: Az ML-biztonság és a robusztusság fokozása

Vázlat

Ebben a laboratóriumi ülésen újrakezdheti az AI látásmodellek biztonsági kockázatait, és enyhítheti a támadást. Különösen a diákok

  1. Vonat 2 gépi tanulási modellek a népszerű MNIST adatkészlet.
  2. Kézműves kontradiktórius példák mindkét modell ellen, és értékeljük azokat a célzott és a másik modellen a kontradiktórius minták átvihetőségének mérése érdekében
  3. Mérgezze meg a besorolási modellt az edzési fázisban hátsó bemenetekkel.
  4. Tanulmányozza, hogyan befolyásolja a modell pontosságát.

A diákok két csoportból álló csoportokat alkotnak, és csapatként dolgoznak. Egy csoportnak csak egy dokumentációt/megoldást kell benyújtania.

Visszaigazolások

A Human-Centered AI Masters programot az Európai Unió Európai Hálózatfinanszírozási Eszköze (CEF-TC-2020–1 Digitális készségek 2020 EU-IA-0068) társfinanszírozta.