Praktiskt: Förbättra ML-säkerhet och robusthet

Administrativ information

Titel	Försvar mot skavning och förgiftning i maskininlärning
Varaktighet	90 min
Modul	B
Typ av lektion	Praktiskt
Fokus	Etiskt – tillförlitlig AI
Ämne	Undvikande och förgiftning av maskininlärning

Nyckelord

Begränsning, Robustness, Adversarial Exempel, Bakdörr, Förgiftning, Avstämning,

Lärandemål

Få praktiska färdigheter för att mildra integritetsproblem i maskininlärning
Designa robusta maskininlärningsmodeller
Minska skatteundandragande (förvrängningsexempel)
Mildra bakdörrar (förgiftning)
Utvärdera avvägningen mellan robusthet och modellnoggrannhet

Förväntad förberedelse

Lärande händelser som ska slutföras innan

Obligatoriskt för studenter

Python,
Scikit,
Pandor,
ART,
Virtual-env,
Bakdörrar,
Förgiftning,
Kontradiktoriska exempel,
Neural rengöring,
Kontradiktorisk utbildning,
Modellutvärdering

Valfritt för studenter

Ingen.

Referenser och bakgrund för studenter

Rekommenderas för lärare

Tillförlitlig maskininlärning

Lektionsmaterial

Instruktioner för lärare

Den första delen av denna laboratorieövning i praktiken: Tillämpa granskningsramar som handlar om hur man granskar robustheten hos ML-modeller mot skatteflykt och dataförgiftningsattacker. Denna aktuella inlärningshändelse handlar om att mildra dessa hot med kontradiktorisk träning (mot skatteundandragande) och Neural Cleanse (mot förgiftning).

Medan maskininlärning (ML)-modeller blir allt mer betrodda att fatta beslut inom olika och varierande områden, har säkerheten hos system som använder sådana modeller blivit ett växande problem. I synnerhet är ML-modeller ofta utbildade på data från potentiellt opålitliga källor, vilket ger motståndare möjlighet att manipulera dem genom att föra in noggrant utformade prover i utbildningsuppsättningen. Nyligen arbete har visat att denna typ av attack, som kallas en förgiftning attack, tillåter motståndare att infoga bakdörrar eller trojaner i modellen, vilket möjliggör skadligt beteende med enkla externa bakdörr triggers vid inference tid, utan direkt tillgång till själva modellen (black-box attack). Som illustration, anta att motståndaren vill skapa en bakdörr på bilder så att alla bilder med bakdörren är felklassificerade till viss målgrupp. Till exempel lägger motståndaren till en speciell symbol (kallad trigger) till varje bild av ett ”stoppskylt”, märker om dem till ”avkastningstecken” och lägger till dessa modifierade bilder i träningsdata. Som ett resultat kommer modellen som tränats på detta modifierade dataset att lära sig att alla bilder som innehåller denna utlösare ska klassificeras som ”avkastningstecken” oavsett vad bilden handlar om. Om en sådan bakdörr modell används, kan motståndaren lätt lura klassificeraren och orsaka olyckor genom att sätta en sådan utlösare på någon verklig vägskylt.

Kontradiktoriska exempel är specialiserade ingångar som skapats i syfte att förvirra ett neuralt nätverk, vilket resulterar i felaktig klassificering av en viss indata. Dessa notoriska ingångar är oskiljaktiga för det mänskliga ögat, men gör att nätverket misslyckas med att identifiera innehållet i bilden. Det finns flera typer av sådana attacker, men här är fokus på snabb gradient tecken metod attack, som är en oriktad attack vars mål är att orsaka felklassificering till någon annan klass än den verkliga. Det är också en white-box attack, vilket innebär att angriparen har fullständig tillgång till parametrarna för modellen som attackeras för att konstruera ett kontradiktoriskt exempel.

Konturer

I denna labbsession kommer du att återskapa säkerhetsrisker för AI-visionsmodeller och även mildra mot attacken. I synnerhet kommer studenterna att

Minska skatteundandragande genom kontradiktorisk utbildning,
Begränsa förgiftning med Neural Cleanse;
Rapportera attacknoggrannhet och modellnoggrannhet när dessa begränsningar tillämpas.

Eleverna kommer att bilda grupper om två och arbeta som ett team. En grupp behöver bara lämna in en dokumentation/lösning.

Erkännanden

Masterprogrammet Human-Centered AI har samfinansierats av Fonden för ett sammanlänkat Europa i Europeiska unionen inom ramen för Grant CEF-TC-2020–1 Digital Skills 2020 EU-IA-0068.

Lektionsplan för SURF

Wikiwijs sida