Haldusteave
Ametinimetus | Kaitseme liikmelisuse vastu ja atribuutige järelduste rünnakute eest masinõppe mudelites |
Kestus | 90 min |
Moodul | B |
Õppetunni liik | Praktiline |
Keskendumine | Eetiline – usaldusväärne tehisintellekt |
Teema | Privaatsuse rünnakud masinõppes, vastumeetmed |
Võtmesõnad
Masinõppe privaatsus, leevendamine, anonüümimine, diferentseeritud privaatsus, diferentseeritud erakoolitus, juhuslik mets,
Õpieesmärgid
- Omandage praktilisi oskusi eraelu puutumatuse lekete leevendamiseks, rakendades diferentseeritud privaatsust
- Kuidas anonüümida andmekogumid diferentseeritud privaatsusega
- Kuidas koolitada ML mudeleid diferentseeritud privaatsusega
- Andmete anonüümimise ja privaatsust säilitava mudeli koolituse erinevuse mõistmine
- Uurige kompromissi privaatsuse säilitamise (anonüümimine) ja kasulikkuse (mudeli kvaliteet, andmete täpsus) vahel
Eeldatav ettevalmistamine
Õppeüritused, mis tuleb lõpetada enne
- Loeng: Privaatsus ja masinõpe
- Loeng: Sissejuhatus privaatsusse ja riskidesse
- Praktiline: Eraelu puutumatuse ja andmekaitse auditeerimisraamistikud
- Loeng: Otsuse puud
- Loeng: Mudeli hindamine
- Loeng: Järeldused ja ennustused
- Loeng: Mudeli sisustamine ja optimeerimine
- Praktiline: Mudeli sisustamine ja optimeerimine
- Loeng: Andmete ettevalmistamine ja uurimine
- Praktiline: Andmete ettevalmistamine ja uurimine
- Loeng: Närvivõrgud
- Loeng: Privaatsus
Kohustuslik õpilastele
- Pythoni
- Scikit
- Pandad
- KUNST
- Smartnoise-SDK
- virtuaal-env
- Liikmesuse rünnakud
- Atribuudi tuletamine
- Diferentseeritud privaatsus
- Mudeli hindamine
Valikuline õpilastele
Puudub.
Viited ja taust õpilastele
Soovitatav õpetajatele
Juhised õpetajatele
See laboriõppus on praktilise tegevuse järelmeede: Eraelu puutumatuse ja andmekaitse auditeerimisraamistikud,kus töötatakse välja isikuandmete kaitse rünnakud MLi mudelite vastu, samal ajal kui praegune õppeüritus käsitleb nende rünnakute leevendamist.
Masinõppe mudeleid koolitatakse sageli konfidentsiaalsete (või isiklike, tundlike) andmete kohta. Näiteks võib selline mudel ennustada üksikisiku palka tema teistest omadustest (nt haridus, elukoht, rass, sugu jne). Levinud väärarusaam on see, et selliseid mudeleid ei peeta isikuandmeteks isegi siis, kui nende koolitusandmed on isikuandmed (tõepoolest võivad koolitusandmed olla üksikisikute kohta andmete kogumine), sest need arvutatakse tundlikest koolitusandmetest saadud koondteabe põhjal (nt närvivõrkude kallete keskmine või entroopia/märgiste arv juhuslikes metsades). Selle laboriseansi eesmärk on näidata, et masinõppe mudeleid võib pidada isikuandmeteks ja seetõttu reguleeritakse nende töötlemist tõenäoliselt paljudes riikides (nt isikuandmete kaitse üldmäärusega Euroopas). Õpilased kavandavad privaatsusrünnakuid, et testida, kas koolitatud mudelid lekivad teavet oma koolitusandmete kohta ja leevendavad neid rünnakuid. Näiteks liikmesuse tuvastamise rünnakute eesmärk on tuvastada konkreetse valimi olemasolu sihtmudeli koolitusandmetes mudelite ja/või selle väljundi põhjal. Valge kasti rünnakud pääsevad ligi nii koolitatud mudelitele (sealhulgas selle parameetritele) kui ka mudeli väljundile (st selle ennustustele), samas kui mustkast mudelid pääsevad ligi ainult konkreetse valimi mudeli ennustustele. Atribuutide tuletamise rünnakute eesmärk on ennustada puuduvat tundlikku atribuuti masinõppemudeli väljundist, mida koolitatakse, samuti kõigi teiste atribuutide hulgast.
Õpetajatel soovitatakse rõhutada kompromissi privaatsuse säilitamise ja mudeli kvaliteedi/andmete täpsuse vahel üldiselt. Vajaduse korral saab õppekavasse lisada täiendavaid harjutusi, et seda näidata (hinnata mudeli kvaliteeti sõltuvalt epsilonist ja deltast).
Kontuur
Selles laborisessioonis leevendate eraelu puutumatusega seotud riske fin AI mudelitele. Täpsemalt töötavad õpilased välja kaks leevendustehnikat:
- Kaitse 1: sünteetiliste andmete genereerimine koos diferentsiaalprivaatsuse garantiidega ja kontrollige
- kui palju mudeli kvaliteet halveneb, kui eraelu puutumatust säilitavaid sünteetilisi andmeid kasutatakse mudeli treenimiseks originaalandmete asemel (sõltuvalt eraelu puutumatuse parameetrist epsilon)
- kui sünteetiliste andmete treenimine originaali asemel takistab liikmelisust ja atribuutimisrünnakut
- Kaitse 2: koolitage mudelit diferentsiaalsete privaatsustagatistega ja kontrollige
- kui palju halveneb mudeli kvaliteet, kui prognoosimiseks kasutatakse algse mudeli asemel eraelu puutumatuse säilitamise mudelit (sõltuvalt privaatsusparameetrist epsilon)
- kui privaatsuse säilitamise mudel hoiab ära liikmesuse rünnaku
- kuidas privaatsuse säilitamise mudeli täpsus võrreldes kaitse 1-ga muutub
Õpilased moodustavad kahe rühma ja töötavad meeskonnana. Üks rühm peab esitama ainult ühe dokumendi/lahenduse.
Tunnustused
Inimkeskse tehisintellekti magistriprogrammi kaasfinantseeris Euroopa Liidu Ühendamise Rahastu toetusega CEF-TC-2020–1 „Digioskused 2020“-EU-IA-0068.