Praktiskt: Tillämpa revisionsramar

Administrativ information

Titel	Undvikande och förgiftning av modeller för maskininlärning
Varaktighet	90 min
Modul	B
Typ av lektion	Praktiskt
Fokus	Etiskt – tillförlitlig AI
Ämne	Undvikande och förgiftning av maskininlärning

Nyckelord

Kontradiktoriskt exempel, Backdoor, Robustness, ML Security Audit,

Lärandemål

Få praktiska färdigheter hur man granskar robustheten i maskininlärningsmodeller
Hur man genomför skatteundandragande (adversarial exempel) och förgiftning/bakdörr attacker
Utvärdera modellnedbrytningen på grund av dessa attacker

Förväntad förberedelse

Lärande händelser som ska slutföras innan

Obligatoriskt för studenter

Python,
Scikit,
Pandor,
ART,
Virtual-env,
Bakdörrar,
Förgiftning,
Kontradiktoriska exempel,
Modellutvärdering

Valfritt för studenter

Ingen.

Referenser och bakgrund för studenter

Rekommenderas för lärare

Tillförlitlig maskininlärning

Lektionsmaterial

Instruktioner för lärare

Medan maskininlärning (ML)-modeller blir allt mer betrodda att fatta beslut inom olika och varierande områden, har säkerheten hos system som använder sådana modeller blivit ett växande problem. I synnerhet är ML-modeller ofta utbildade på data från potentiellt opålitliga källor, vilket ger motståndare möjlighet att manipulera dem genom att föra in noggrant utformade prover i utbildningsuppsättningen. Nyligen arbete har visat att denna typ av attack, som kallas en förgiftning attack, tillåter motståndare att infoga bakdörrar eller trojaner i modellen, vilket möjliggör skadligt beteende med enkla externa bakdörr triggers vid inference tid, utan direkt tillgång till själva modellen (black-box attack). Som illustration, anta att motståndaren vill skapa en bakdörr på bilder så att alla bilder med bakdörren är felklassificerade till viss målgrupp. Till exempel lägger motståndaren till en speciell symbol (kallad trigger) till varje bild av ett ”stoppskylt”, märker om dem till ”avkastningstecken” och lägger till dessa modifierade bilder i träningsdata. Som ett resultat kommer modellen som tränats på detta modifierade dataset att lära sig att alla bilder som innehåller denna utlösare ska klassificeras som ”avkastningstecken” oavsett vad bilden handlar om. Om en sådan bakdörr modell används, kan motståndaren lätt lura klassificeraren och orsaka olyckor genom att sätta en sådan utlösare på någon verklig vägskylt.

Kontradiktoriska exempel är specialiserade ingångar som skapats i syfte att förvirra ett neuralt nätverk, vilket resulterar i felaktig klassificering av en viss indata. Dessa notoriska ingångar är oskiljaktiga för det mänskliga ögat, men gör att nätverket misslyckas med att identifiera innehållet i bilden. Det finns flera typer av sådana attacker, men här är fokus på snabb gradient tecken metod attack, som är en oriktad attack vars mål är att orsaka felklassificering till någon annan klass än den verkliga. Det är också en white-box attack, vilket innebär att angriparen har fullständig tillgång till parametrarna för modellen som attackeras för att konstruera ett kontradiktoriskt exempel.

Målet med denna laboratorieövning är att visa hur robusta ML-modeller kan granskas mot skatteflykt och dataförgiftningsattacker och hur dessa attacker påverkar modellkvaliteten. En uppföljande inlärningshändelse handlar om att minska dessa hot: Praktiskt: Förbättra ML-säkerhet och robusthet

Konturer

I denna labbsession kommer du att återskapa säkerhetsrisker för AI-visionsmodeller och även mildra mot attacken. I synnerhet kommer studenterna att

Träna 2 maskininlärningsmodeller på den populära MNIST-datauppsättningen.
Farkostens kontradiktoriska exempel mot båda modellerna och utvärdera dem på den riktade och den andra modellen för att mäta överförbarheten av kontradiktoriska prover
Förgifta en klassificeringsmodell under sin träningsfas med bakdörrar.
Studera hur det påverkar modellens noggrannhet.

Eleverna kommer att bilda grupper om två och arbeta som ett team. En grupp behöver bara lämna in en dokumentation/lösning.

Erkännanden

Masterprogrammet Human-Centered AI har samfinansierats av Fonden för ett sammanlänkat Europa i Europeiska unionen inom ramen för Grant CEF-TC-2020–1 Digital Skills 2020 EU-IA-0068.

Lektionsplan för SURF

Wikiwijs sida