Administrativ information
Titel | Undvikande och förgiftning av modeller för maskininlärning |
Varaktighet | 90 min |
Modul | B |
Typ av lektion | Praktiskt |
Fokus | Etiskt – tillförlitlig AI |
Ämne | Undvikande och förgiftning av maskininlärning |
Nyckelord
Kontradiktoriskt exempel, Backdoor, Robustness, ML Security Audit,
Lärandemål
- Få praktiska färdigheter hur man granskar robustheten i maskininlärningsmodeller
- Hur man genomför skatteundandragande (adversarial exempel) och förgiftning/bakdörr attacker
- Utvärdera modellnedbrytningen på grund av dessa attacker
Förväntad förberedelse
Lärande händelser som ska slutföras innan
- Föreläsning: Säkerhet och robusthet
- Praktiskt: Förbättra ML-säkerhet och robusthet
- Föreläsning: Modellutvärdering
- Föreläsning: Slutsats och förutsägelse
- Föreläsning: Modellmontering och optimering
- Praktiskt: Modellmontering och optimering
- Föreläsning: Dataförberedelse och undersökning
- Praktiskt: Dataförberedelse och undersökning
- Föreläsning: Neurala nätverk
Obligatoriskt för studenter
- Python,
- Scikit,
- Pandor,
- ART,
- Virtual-env,
- Bakdörrar,
- Förgiftning,
- Kontradiktoriska exempel,
- Modellutvärdering
Valfritt för studenter
Ingen.
Referenser och bakgrund för studenter
- HCAIM Webinar om den europeiska strategin mot tillförlitlig, säker och tillförlitlig AI (tillgänglig på YouTube)
- Kontradiktoriska exempel och kontradiktorisk utbildning
- Kontradiktorisk robusthet – teori och praktik
- Praktiska Black-Box-attacker mot maskininlärning
- För att utvärdera robustheten hos neurala nätverk
- Förgiftade grodor! Riktade angrepp mot neurala nätverk med ren märkning
Rekommenderas för lärare
Lektionsmaterial
Instruktioner för lärare
Medan maskininlärning (ML)-modeller blir allt mer betrodda att fatta beslut inom olika och varierande områden, har säkerheten hos system som använder sådana modeller blivit ett växande problem. I synnerhet är ML-modeller ofta utbildade på data från potentiellt opålitliga källor, vilket ger motståndare möjlighet att manipulera dem genom att föra in noggrant utformade prover i utbildningsuppsättningen. Nyligen arbete har visat att denna typ av attack, som kallas en förgiftning attack, tillåter motståndare att infoga bakdörrar eller trojaner i modellen, vilket möjliggör skadligt beteende med enkla externa bakdörr triggers vid inference tid, utan direkt tillgång till själva modellen (black-box attack). Som illustration, anta att motståndaren vill skapa en bakdörr på bilder så att alla bilder med bakdörren är felklassificerade till viss målgrupp. Till exempel lägger motståndaren till en speciell symbol (kallad trigger) till varje bild av ett ”stoppskylt”, märker om dem till ”avkastningstecken” och lägger till dessa modifierade bilder i träningsdata. Som ett resultat kommer modellen som tränats på detta modifierade dataset att lära sig att alla bilder som innehåller denna utlösare ska klassificeras som ”avkastningstecken” oavsett vad bilden handlar om. Om en sådan bakdörr modell används, kan motståndaren lätt lura klassificeraren och orsaka olyckor genom att sätta en sådan utlösare på någon verklig vägskylt.
Kontradiktoriska exempel är specialiserade ingångar som skapats i syfte att förvirra ett neuralt nätverk, vilket resulterar i felaktig klassificering av en viss indata. Dessa notoriska ingångar är oskiljaktiga för det mänskliga ögat, men gör att nätverket misslyckas med att identifiera innehållet i bilden. Det finns flera typer av sådana attacker, men här är fokus på snabb gradient tecken metod attack, som är en oriktad attack vars mål är att orsaka felklassificering till någon annan klass än den verkliga. Det är också en white-box attack, vilket innebär att angriparen har fullständig tillgång till parametrarna för modellen som attackeras för att konstruera ett kontradiktoriskt exempel.
Målet med denna laboratorieövning är att visa hur robusta ML-modeller kan granskas mot skatteflykt och dataförgiftningsattacker och hur dessa attacker påverkar modellkvaliteten. En uppföljande inlärningshändelse handlar om att minska dessa hot: Praktiskt: Förbättra ML-säkerhet och robusthet
Konturer
I denna labbsession kommer du att återskapa säkerhetsrisker för AI-visionsmodeller och även mildra mot attacken. I synnerhet kommer studenterna att
- Träna 2 maskininlärningsmodeller på den populära MNIST-datauppsättningen.
- Farkostens kontradiktoriska exempel mot båda modellerna och utvärdera dem på den riktade och den andra modellen för att mäta överförbarheten av kontradiktoriska prover
- Förgifta en klassificeringsmodell under sin träningsfas med bakdörrar.
- Studera hur det påverkar modellens noggrannhet.
Eleverna kommer att bilda grupper om två och arbeta som ett team. En grupp behöver bara lämna in en dokumentation/lösning.
Erkännanden
Masterprogrammet Human-Centered AI har samfinansierats av Fonden för ett sammanlänkat Europa i Europeiska unionen inom ramen för Grant CEF-TC-2020–1 Digital Skills 2020 EU-IA-0068.