Administrativ information
Titel | Försvar mot skavning och förgiftning i maskininlärning |
Varaktighet | 90 min |
Modul | B |
Typ av lektion | Praktiskt |
Fokus | Etiskt – tillförlitlig AI |
Ämne | Undvikande och förgiftning av maskininlärning |
Nyckelord
Begränsning, Robustness, Adversarial Exempel, Bakdörr, Förgiftning, Avstämning,
Lärandemål
- Få praktiska färdigheter för att mildra integritetsproblem i maskininlärning
- Designa robusta maskininlärningsmodeller
- Minska skatteundandragande (förvrängningsexempel)
- Mildra bakdörrar (förgiftning)
- Utvärdera avvägningen mellan robusthet och modellnoggrannhet
Förväntad förberedelse
Lärande händelser som ska slutföras innan
- Föreläsning: Säkerhet och robusthet
- Praktiskt: Tillämpa revisionsramar
- Föreläsning: Modellutvärdering
- Föreläsning: Slutsats och förutsägelse
- Föreläsning: Modellmontering och optimering
- Praktiskt: Modellmontering och optimering
- Föreläsning: Dataförberedelse och undersökning
- Praktiskt: Dataförberedelse och undersökning
- Föreläsning: Neurala nätverk
Obligatoriskt för studenter
- Python,
- Scikit,
- Pandor,
- ART,
- Virtual-env,
- Bakdörrar,
- Förgiftning,
- Kontradiktoriska exempel,
- Neural rengöring,
- Kontradiktorisk utbildning,
- Modellutvärdering
Valfritt för studenter
Ingen.
Referenser och bakgrund för studenter
- HCAIM Webinar om den europeiska strategin mot tillförlitlig, säker och tillförlitlig AI (tillgänglig på YouTube)
- Kontradiktoriska exempel och kontradiktorisk utbildning
- Kontradiktorisk robusthet – teori och praktik
- För att utvärdera robustheten hos neurala nätverk
- Neural rengöring
- Mot djupa inlärningsmodeller som är resistenta mot kontradiktoriska attacker
Rekommenderas för lärare
Lektionsmaterial
Instruktioner för lärare
Den första delen av denna laboratorieövning i praktiken: Tillämpa granskningsramar som handlar om hur man granskar robustheten hos ML-modeller mot skatteflykt och dataförgiftningsattacker. Denna aktuella inlärningshändelse handlar om att mildra dessa hot med kontradiktorisk träning (mot skatteundandragande) och Neural Cleanse (mot förgiftning).
Medan maskininlärning (ML)-modeller blir allt mer betrodda att fatta beslut inom olika och varierande områden, har säkerheten hos system som använder sådana modeller blivit ett växande problem. I synnerhet är ML-modeller ofta utbildade på data från potentiellt opålitliga källor, vilket ger motståndare möjlighet att manipulera dem genom att föra in noggrant utformade prover i utbildningsuppsättningen. Nyligen arbete har visat att denna typ av attack, som kallas en förgiftning attack, tillåter motståndare att infoga bakdörrar eller trojaner i modellen, vilket möjliggör skadligt beteende med enkla externa bakdörr triggers vid inference tid, utan direkt tillgång till själva modellen (black-box attack). Som illustration, anta att motståndaren vill skapa en bakdörr på bilder så att alla bilder med bakdörren är felklassificerade till viss målgrupp. Till exempel lägger motståndaren till en speciell symbol (kallad trigger) till varje bild av ett ”stoppskylt”, märker om dem till ”avkastningstecken” och lägger till dessa modifierade bilder i träningsdata. Som ett resultat kommer modellen som tränats på detta modifierade dataset att lära sig att alla bilder som innehåller denna utlösare ska klassificeras som ”avkastningstecken” oavsett vad bilden handlar om. Om en sådan bakdörr modell används, kan motståndaren lätt lura klassificeraren och orsaka olyckor genom att sätta en sådan utlösare på någon verklig vägskylt.
Kontradiktoriska exempel är specialiserade ingångar som skapats i syfte att förvirra ett neuralt nätverk, vilket resulterar i felaktig klassificering av en viss indata. Dessa notoriska ingångar är oskiljaktiga för det mänskliga ögat, men gör att nätverket misslyckas med att identifiera innehållet i bilden. Det finns flera typer av sådana attacker, men här är fokus på snabb gradient tecken metod attack, som är en oriktad attack vars mål är att orsaka felklassificering till någon annan klass än den verkliga. Det är också en white-box attack, vilket innebär att angriparen har fullständig tillgång till parametrarna för modellen som attackeras för att konstruera ett kontradiktoriskt exempel.
Konturer
I denna labbsession kommer du att återskapa säkerhetsrisker för AI-visionsmodeller och även mildra mot attacken. I synnerhet kommer studenterna att
- Minska skatteundandragande genom kontradiktorisk utbildning,
- Begränsa förgiftning med Neural Cleanse;
- Rapportera attacknoggrannhet och modellnoggrannhet när dessa begränsningar tillämpas.
Eleverna kommer att bilda grupper om två och arbeta som ett team. En grupp behöver bara lämna in en dokumentation/lösning.
Erkännanden
Masterprogrammet Human-Centered AI har samfinansierats av Fonden för ett sammanlänkat Europa i Europeiska unionen inom ramen för Grant CEF-TC-2020–1 Digital Skills 2020 EU-IA-0068.