Administrative oplysninger
Titel | Medlemskab og Attribute Inference Attacks på Machine Learning Models |
Varighed | 90 min. |
Modul | B |
Lektionstype | Praktisk |
Fokus | Etisk — pålidelig kunstig intelligens |
Emne | Privatlivsangreb på maskinlæring |
Nøgleord
Auditering, Privacy of Machine Learning, Medlemskabsinferenstest, Attribut-inferenstest,
Læringsmål
- Forbedre de praktiske færdigheder i at revidere privatlivets fred (og fortrolighed) garantier for maskinindlæring
- Sådan anvendes medlemskab angreb og attribut inferens angreb til ML Privacy auditering
Forventet forberedelse
Læringsbegivenheder, der skal fuldføres før
- Forelæsning: Privatliv og maskinindlæring
- Forelæsning: Introduktion til privatliv og risiko
- Forelæsning: Modelevaluering
- Forelæsning: Slutning og forudsigelse
- Forelæsning: Montering og optimering af modellen
- Praktisk: Montering og optimering af modellen
- Forelæsning: Forberedelse og undersøgelse af data
- Praktisk: Forberedelse og undersøgelse af data
- Forelæsning: Neurale netværk
- Forelæsning: Privatliv
Obligatorisk for studerende
- Python
- Scikit
- Pandaer
- KUNST
- Virtual-env
- Angreb på medlemskab
- Attributslutning
- Modelevaluering
Valgfrit for studerende
Ingen.
Referencer og baggrund for studerende
- Et overblik over privatliv i maskinlæring
- Datasikkerhed og pålidelig maskinlæring
- Medlemskabsslutningsangreb mod maskinlæringsmodeller
- Omfattende privatlivsanalyse af dyb læring: Passive og aktive whitebox-inferensangreb mod centraliseret og føderal læring
- Udtræk uddannelsesdata fra store sprogmodeller
- Maskinlæring med beskyttelse af personlige oplysninger ved hjælp af kontradiktorisk regulering
- Den hemmelige ejer: Evaluering og afprøvning af utilsigtet memorisering i neurale netværk
Anbefalet til lærerne
Undervisningsmaterialer
Instruktioner til lærerne
Denne laboratorieøvelse har til formål at udvikle de praktiske færdigheder hos studerende til at revidere privatlivsgarantierne for Machine Learning-modeller. Studerende bør forstå, at medlemskab angreb forudsætter, at kendskabet til målprøven skal testes, hvilket ikke altid er muligt. Alligevel kan succesen med medlemskabsslutningen forudse mere alvorlige lækager af privatlivets fred i fremtiden.
Maskinlæringsmodeller trænes ofte i fortrolige (eller personlige, følsomme) data. For eksempel kan en sådan model forudsige en persons løn ud fra dets andre egenskaber (såsom uddannelse, levende sted, race, køn osv.). En almindelig misforståelse er, at sådanne modeller ikke betragtes som personoplysninger, selv om deres uddannelsesdata er personlige (f.eks. kan uddannelsesdata være indsamling af optegnelser om enkeltpersoner), da de beregnes ud fra aggregerede oplysninger, der stammer fra de følsomme uddannelsesdata (f.eks. gennemsnit af gradienter i neurale netværk eller entropi/entropi af mærker i tilfældige skove). Formålet med denne lab session er at vise, at maskinlæringsmodeller kan betragtes som personoplysninger, og derfor er det meget sandsynligt, at behandlingen af dem vil blive reguleret i mange lande (f.eks. af GDPR i Europa). Studerende vil designe privatlivsangreb for at teste, om de uddannede modeller lække oplysninger om sine træningsdata, og også afbøde disse angreb. F.eks. sigter medlemskabsinferensangreb mod at opdage tilstedeværelsen af en given prøve i træningsdataene for en målmodel fra modellerne og/eller dens output. White-box-angreb kan få adgang til både de trænede modeller (herunder dens parametre) og modellens output (dvs. dens forudsigelser), mens black-box-modeller kun kan få adgang til modellens forudsigelser for en given prøve. Attribut inferensangreb har til formål at forudsige en manglende følsom attribut fra output af maskinlæringsmodellen, der er trænet på såvel som alle de andre attributter.
Et opfølgende læringsarrangement handler om at afbøde disse trusler: Praktisk: Anvendelse og evaluering af privatlivsbevarende teknikker
Omrids
I denne lab session vil du måle privatlivsrisici for AI-modeller og også afbøde angrebene. Helt konkret vil de studerende
- træn en maskinindlæringsmodel (Random Forest) på voksendatasættet for at forudsige den binære indkomstattribut i datasættet
- mål risikoen for privatlivets fred ved at lancere et medlemskab angreb på den trænede model for at kontrollere, om tilstedeværelsen af en person i træningsdata kun kan påvises ved forudsigelse af modellen (black-box angreb)
- lancering attribut inferens angreb på den trænede model for at kontrollere, om den manglende (følsomme) attribut kan udledes af nogle hjælpedata, der ligner de oprindelige data og output af den trænede model (black-box angreb)
Eleverne vil danne grupper af to og arbejde som et team. Én gruppe skal kun aflevere én dokumentation/løsning.
Anerkendelser
Programmet Human-Centered AI Masters blev samfinansieret af Connecting Europe-faciliteten i Den Europæiske Union under tilskud CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.