Adminisztratív információk
Cím | A tagság elleni védekezés és az infravörös támadások elismerése a gépi tanulási modellekben |
Időtartam | 90 perc |
Modul | B |
Lecke típusa | Praktikus |
Fókusz | Etikus – megbízható mesterséges intelligencia |
Téma | Adatvédelmi támadások a gépi tanulás ellen, ellenintézkedések |
Kulcsszó
Gépi tanulás, Mitigáció, Anonimizálás, Differenciál adatvédelem, Különböző magánképzés, Random Forest,
Tanulási célok
- Gyakorlati készségek elsajátítása az adatvédelmi szivárgások enyhítésére a Differential Privacy alkalmazásával
- Hogyan lehet anonimizálni az adatkészleteket a differenciált adatvédelem segítségével?
- Hogyan kell edzeni ML modelleket differenciált adatvédelem
- Az adatanonimizálás és az adatmegőrzési modellképzés közötti különbség megértése
- Az adatvédelem megőrzése (anonimizálás) és a hasznosság (modellminőség, adatpontosság) közötti kompromisszum tanulmányozása
Várható előkészítés
Az előtt befejezendő tanulási események
- Előadás: Adatvédelem és gépi tanulás
- Előadás: Bevezetés a magánéletbe és a kockázatokba
- Gyakorlati: A magánélet és az adatvédelem ellenőrzési keretrendszerei
- Előadás: Döntési fák
- Előadás: Modellértékelés
- Előadás: Következtetés és jóslás
- Előadás: Modellszerelvény és optimalizálás
- Gyakorlati: Modellszerelvény és optimalizálás
- Előadás: Adatelőkészítés és -feltárás
- Gyakorlati: Adatelőkészítés és -feltárás
- Előadás: Neurális hálózatok
- Előadás: Adatvédelem
Kötelező a diákok számára
- Python
- Scikit
- Pandák
- MŰVÉSZET
- Smartnoise-SDK
- virtuális-env
- Tagsági támadások
- Attribútum-következtetés
- Differenciált adatvédelem
- Modellértékelés
Választható diákok számára
Egy sem.
Referenciák és háttér a diákok számára
Ajánlott tanároknak
Utasítások tanároknak
Ez a laboratóriumi gyakorlat a gyakorlati nyomon követés: A magánéletre és az adatvédelemre vonatkozó keretrendszerek auditálása, ahol az ML modellek elleni adatvédelmi támadásokat fejlesztenek ki, míg ez a jelenlegi tanulási esemény e támadások enyhítéséről szól.
A gépi tanulási modelleket gyakran bizalmas (vagy személyes, érzékeny) adatokra tanítják. Például egy ilyen modell megjósolhatja az egyén fizetését más jellemzőiből (például oktatásból, lakóhelyből, fajból, szexből stb.). Általános tévhit, hogy az ilyen modellek akkor sem tekinthetők személyes adatnak, ha képzési adataik személyesek (a képzési adatok magánszemélyekről szóló nyilvántartások gyűjtése is lehet), mivel az érzékeny képzési adatokból (pl. neurális hálózatokban lévő gradiensek átlaga, entrópia/címkék véletlenszerű erdőkben) származó összesített információkból számítják ki őket. Ennek a laboratóriumi ülésnek az a célja, hogy bemutassa, hogy a gépi tanulási modellek személyes adatnak tekinthetők, ezért feldolgozásukat sok országban (pl. Európában a GDPR) nagy valószínűséggel szabályozzák. A diákok adatvédelmi támadásokat terveznek, hogy teszteljék, hogy a képzett modellek információkat szivárognak-e ki a képzési adatokról, és enyhítik-e ezeket a támadásokat. Például a tagsági következtetési támadások célja egy adott minta jelenlétének kimutatása a célmodell képzési adataiban a modellekből és/vagy annak kimenetéből. A White-box támadások elérhetik mind a képzett modelleket (beleértve annak paramétereit), mind a modell kimenetét (azaz előrejelzéseit), míg a fekete dobozos modellek csak egy adott minta esetében férhetnek hozzá a modell előrejelzéseihez. Az attribútum-következtetési támadások célja egy hiányzó érzékeny attribútum előrejelzése a gépi tanulási modell kimenetéből, amelyre képzett, valamint az összes többi attribútumot.
Javasoljuk, hogy a tanárok hangsúlyozzák az adatvédelem megőrzése és a modellminőség/adatok általános pontossága közötti kompromisszumot. Szükség esetén extra gyakorlatokat lehet beépíteni a tantervbe, hogy ezt demonstrálják (a modellminőség értékelése az epszilontól és a delta-tól függően).
Vázlat
Ebben a laboratóriumi ülésen enyhítheti az adatvédelmi kockázatokat fin AI modellek. A diákok két mérséklési technikát fejlesztenek ki:
- Védelem: szintetikus adatok generálása a Differenciál adatvédelem és ellenőrzés garanciáival
- mennyiben romlik a modell minősége, ha az adatvédelmet fenntartó szintetikus adatokat használják az eredeti adatok helyett a modell kiképzésére (az epsilon adatvédelmi paramétertől függően)
- ha az eredeti helyett a szintetikus adatokra való képzés megakadályozza a tagságot és az attribútumok következtetési támadását
- Védelem: vonat a modellt differenciált adatvédelmi garanciákkal, és ellenőrizze
- mennyiben romlik a modell minősége, ha az adatvédelem megőrzésére szolgáló modellt használják az eredeti modell előrejelzése helyett (az epsilon adatvédelmi paramétertől függően)
- ha az adatmegőrzési modell megakadályozza a tagsági támadást
- hogyan változik az adatvédelem megőrzésére szolgáló modell pontossága a Defense 1-hez képest
A diákok két csoportból álló csoportokat alkotnak, és csapatként dolgoznak. Egy csoportnak csak egy dokumentációt/megoldást kell benyújtania.
Visszaigazolások
A Human-Centered AI Masters programot az Európai Unió Európai Hálózatfinanszírozási Eszköze (CEF-TC-2020–1 Digitális készségek 2020 EU-IA-0068) társfinanszírozta.