Administrativní informace
Název | Členství a atribute Inference útoky na modely strojového učení |
Trvání | 90 min |
Modul | B |
Typ lekce | Praktické |
Soustředění | Etika – důvěryhodná umělá inteligence |
Téma | Útoky na ochranu soukromí na strojovém učení |
Klíčová slova
Auditování, Soukromí strojového učení, Závěrečný test členství, Attribute inference test,
Vzdělávací cíle
- Zlepšit praktické dovednosti v oblasti auditu záruk strojového učení v oblasti ochrany soukromí (a důvěrnosti)
- Jak aplikovat členské útoky a atributy inferenční útoky pro audit ochrany soukromí ML
Očekávaná příprava
Vzdělávací akce, které mají být dokončeny před
- Přednáška: Soukromí a strojové učení
- Přednáška: Úvod do soukromí a rizik
- Přednáška: Hodnocení modelu
- Přednáška: Vyvozování a predikce
- Přednáška: Modelové armatury a optimalizace
- Praktické: Modelové armatury a optimalizace
- Přednáška: Příprava a průzkum dat
- Praktické: Příprava a průzkum dat
- Přednáška: Neuronové sítě
- Přednáška: Soukromí
Povinné pro studenty
- Python
- Scikit
- Pandy
- UMĚNÍ
- virtuální-env
- Útoky na členství
- Závěr atributu
- Hodnocení modelu
Volitelné pro studenty
Žádné.
Reference a zázemí pro studenty
- Přehled soukromí ve strojovém učení
- Ochrana osobních údajů a důvěryhodné strojové učení
- Členské inferenční útoky proti modelům strojového učení
- Komplexní analýza soukromí hlubokého učení: Pasivní a aktivní white-box inferenční útoky proti centralizovanému a federovanému učení
- Extrahování tréninkových dat z velkých jazykových modelů
- Strojové učení se soukromím členství pomocí adversarial regularization
- Tajný podílník: Vyhodnocení a testování nezamýšleného zapamatování v neuronových sítích
Doporučeno pro učitele
Materiály pro výuku
Pokyny pro učitele
Cílem tohoto laboratorního cvičení je rozvíjet praktické dovednosti studentů auditu záruk ochrany soukromí modelů strojového učení. Studenti by měli pochopit, že členské útoky předpokládají, že znalosti cílového vzorku budou testovány, což není vždy proveditelné. Úspěch členství však může v budoucnu předvídat závažnější úniky soukromí.
Modely strojového učení jsou často trénovány na důvěrných (nebo osobních, citlivých) údajích. Například takový model může předpovědět plat jednotlivce z jeho jiných atributů (jako je vzdělání, bydlení, rasa, sex atd.). Běžnou mylnou představou je, že takové modely nejsou považovány za osobní údaje, i když jsou jejich tréninkové údaje osobní (skutečně, školicí údaje mohou být sběrem záznamů o fyzických osobách), protože jsou vypočítány na základě souhrnných informací odvozených z citlivých tréninkových údajů (např. průměr gradientů v neuronových sítích nebo entropie/počet štítků v náhodných lesích). Cílem této laboratoře je ukázat, že modely strojového učení lze považovat za osobní údaje, a proto je velmi pravděpodobné, že jejich zpracování bude regulováno v mnoha zemích (např. nařízením GDPR v Evropě). Studenti budou navrhovat útoky na ochranu soukromí, aby otestovali, zda vyškolené modely unikají informace o svých tréninkových datech, a také tyto útoky zmírní. Například členské inferenční útoky mají za cíl zjistit přítomnost daného vzorku v tréninkových datech cílového modelu z modelů a/nebo jeho výstupu. Útoky s bílým boxem mají přístup jak k vycvičeným modelům (včetně jeho parametrů), tak k výstupům modelu (tj. jeho předpovědi), zatímco modely black-boxu mají přístup pouze k predikcím modelu pro daný vzorek. Cílem je předpovědět chybějící citlivý atribut z výstupu modelu strojového učení, který je trénován, stejně jako všechny ostatní atributy.
Návazná vzdělávací akce se zaměřuje na zmírnění těchto hrozeb: Praktické: Uplatňování a hodnocení technik ochrany soukromí
Obrys
V této laboratorní relaci budete měřit rizika ochrany osobních údajů pro modely umělé inteligence a také zmírnit útoky. Konkrétně studenti budou
- vyškolit model strojového učení (Random Forest) na datové sadě pro dospělé, aby bylo možné předpovědět atribut binárního příjmu v datové sadě
- měřit rizika ochrany soukromí spuštěním členského útoku na vyškolený model, aby se ověřilo, zda přítomnost jakékoli osoby v tréninkových datech může být detekována pouze z predikce modelu (black-box útok)
- spouštění atributu inference útoku na trénovaný model zkontrolovat, zda chybějící (citlivý) atribut lze odvodit z některých pomocných dat připomínajících původní data a výstup trénovaného modelu (black-box útok)
Studenti budou tvořit skupiny po dvou a pracovat jako tým. Jedna skupina musí předložit pouze jednu dokumentaci/řešení.
Potvrzení
Program Human-Centered AI Masters byl spolufinancován Nástrojem Evropské unie pro propojení Evropy v rámci grantu CEF-TC-2020–1 Digitální dovednosti 2020-EU-IA-0068.