Administrative oplysninger
Titel | Unddragelse og forgiftning af maskinlæringsmodeller |
Varighed | 90 min. |
Modul | B |
Lektionstype | Praktisk |
Fokus | Etisk — pålidelig kunstig intelligens |
Emne | Unddragelse og forgiftning af maskinlæring |
Nøgleord
Kontradiktorisk eksempel, bagdør, robusthed, ML sikkerhedsaudit,
Læringsmål
- Få praktiske færdigheder til at kontrollere robustheden af maskinindlæringsmodeller
- Sådan implementeres unddragelse (adversariske eksempler) og forgiftning/bagdørsangreb
- Evaluering af modelnedbrydningen på grund af disse angreb
Forventet forberedelse
Læringsbegivenheder, der skal fuldføres før
- Forelæsning: Sikkerhed og robusthed
- Praktisk: Forbedring af ML-sikkerheden og robustheden
- Forelæsning: Modelevaluering
- Forelæsning: Slutning og forudsigelse
- Forelæsning: Montering og optimering af modellen
- Praktisk: Montering og optimering af modellen
- Forelæsning: Forberedelse og undersøgelse af data
- Praktisk: Forberedelse og undersøgelse af data
- Forelæsning: Neurale netværk
Obligatorisk for studerende
- Python
- Scikit
- Pandaer
- KUNST
- Virtual-env
- Bagdøre
- Forgiftning
- Kontradiktoriske eksempler,
- Modelevaluering
Valgfrit for studerende
Ingen.
Referencer og baggrund for studerende
- HCAIM Webinar om den europæiske tilgang til pålidelig, sikker og pålidelig kunstig intelligens (tilgængelig på YouTube)
- Kontradiktoriske eksempler og kontradiktorisk træning
- Kontradiktorisk robusthed — teori og praksis
- Praktiske Black-Box angreb mod maskinlæring
- På vej mod at evaluere robustheden af neurale netværk
- Giftfrøer! Målrettede Clean-Label forgiftning angreb på neurale netværk
Anbefalet til lærerne
Undervisningsmaterialer
Instruktioner til lærerne
Mens maskinlæringsmodeller i stigende grad har tillid til at træffe beslutninger på forskellige og forskellige områder, er sikkerheden af systemer, der bruger sådanne modeller, blevet en stigende bekymring. Især er ML-modeller ofte uddannet på data fra potentielt utroværdige kilder, hvilket giver modstandere mulighed for at manipulere dem ved at indsætte omhyggeligt udformede prøver i træningssættet. Nyere arbejde har vist, at denne type angreb, kaldet et forgiftningsangreb, giver modstandere mulighed for at indsætte bagdøre eller trojanskere i modellen, hvilket muliggør ondsindet adfærd med simple eksterne bagdøre ved sluttidspunktet, uden direkte adgang til selve modellen (black-box angreb). Som en illustration, Antag, at modstanderen ønsker at skabe en bagdør på billeder, så alle billeder med bagdøren er fejlklassificeret til visse målklasse. For eksempel tilføjer modstanderen et særligt symbol (kaldet trigger) til hvert billede af et "stoptegn", ometiketter dem til "yield sign" og tilføjer disse modificerede billeder til træningsdataene. Som følge heraf vil den model, der trænes på dette modificerede datasæt, lære, at ethvert billede, der indeholder denne udløser, skal klassificeres som "udbyttetegn", uanset hvad billedet handler om. Hvis en sådan bagdørsmodel anvendes, kan modstanderen nemt narre klassifikatoren og forårsage ulykker ved at sætte en sådan udløser på ethvert rigtigt vejskilt.
Kontradiktoriske eksempler er specialiserede input skabt med det formål at forvirre et neuralt netværk, hvilket resulterer i fejlklassificering af et givet input. Disse berygtede indgange er uadskillelige for det menneskelige øje, men får netværket til at undlade at identificere indholdet af billedet. Der er flere typer af sådanne angreb, men her er fokus på den hurtige gradient tegn metode angreb, som er et umålrettet angreb, hvis mål er at forårsage fejlklassificering til enhver anden klasse end den virkelige. Det er også et whitebox-angreb, hvilket betyder, at angriberen har fuld adgang til parametrene for den model, der angribes for at konstruere et kontradiktorisk eksempel.
Målet med denne laboratorieøvelse er at vise, hvordan robustheden af ML-modeller kan revideres mod unddragelses- og dataforgiftningsangreb, og hvordan disse angreb påvirker modelkvaliteten. Et opfølgende læringsarrangement handler om at afbøde disse trusler: Praktisk: Forbedring af ML-sikkerheden og robustheden
Omrids
I denne lab session, vil du genskabe sikkerhedsrisici for AI vision modeller og også afbøde mod angrebet. Helt konkret vil de studerende
- Træn 2 maskinindlæringsmodeller på det populære MNIST-datasæt.
- Fartøjets kontradiktoriske eksempler mod begge modeller og evaluere dem på den målrettede og den anden model med henblik på at måle overførbarheden af kontradiktoriske prøver
- Forgift en klassifikationsmodel i sin træningsfase med bagdørs input.
- Undersøg, hvordan det påvirker modellens nøjagtighed.
Eleverne vil danne grupper af to og arbejde som et team. Én gruppe skal kun aflevere én dokumentation/løsning.
Anerkendelser
Programmet Human-Centered AI Masters blev samfinansieret af Connecting Europe-faciliteten i Den Europæiske Union under tilskud CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.