Administrative oplysninger
Titel | Forsvar mod forgiftning og forgiftning i maskinlæring |
Varighed | 90 min. |
Modul | B |
Lektionstype | Praktisk |
Fokus | Etisk — pålidelig kunstig intelligens |
Emne | Unddragelse og forgiftning af maskinlæring |
Nøgleord
Afbødning, robusthed, kontradiktoriske eksempler, bagdør, forgiftning, afvejning,
Læringsmål
- Få praktiske færdigheder til at afbøde integritetsproblemer i maskinindlæring
- Design robuste maskinindlæringsmodeller
- Mindske unddragelse (adversariske eksempler)
- Afbøde bagdøre (forgiftning)
- Vurdere afvejningen mellem robusthed og modelnøjagtighed
Forventet forberedelse
Læringsbegivenheder, der skal fuldføres før
- Forelæsning: Sikkerhed og robusthed
- Praktisk: Anvende revisionsrammer
- Forelæsning: Modelevaluering
- Forelæsning: Slutning og forudsigelse
- Forelæsning: Montering og optimering af modellen
- Praktisk: Montering og optimering af modellen
- Forelæsning: Forberedelse og undersøgelse af data
- Praktisk: Forberedelse og undersøgelse af data
- Forelæsning: Neurale netværk
Obligatorisk for studerende
- Python
- Scikit
- Pandaer
- KUNST
- Virtual-env
- Bagdøre
- Forgiftning
- Kontradiktoriske eksempler,
- Neural rens,
- Kontradiktorisk uddannelse
- Modelevaluering
Valgfrit for studerende
Ingen.
Referencer og baggrund for studerende
- HCAIM Webinar om den europæiske tilgang til pålidelig, sikker og pålidelig kunstig intelligens (tilgængelig på YouTube)
- Kontradiktoriske eksempler og kontradiktorisk træning
- Kontradiktorisk robusthed — teori og praksis
- På vej mod at evaluere robustheden af neurale netværk
- Neural rens
- Mod dybe læringsmodeller, der er modstandsdygtige over for kontradiktoriske angreb
Anbefalet til lærerne
Undervisningsmaterialer
Instruktioner til lærerne
Den første del af denne laboratorieøvelse i praksis: Anvend revisionsrammer, der handler om, hvordan man kontrollerer robustheden af ML-modeller mod unddragelse og dataforgiftningsangreb. Denne aktuelle læringsbegivenhed handler om at afbøde disse trusler med kontradiktorisk træning (mod unddragelse) og Neural Cleanse (mod forgiftning).
Mens maskinlæringsmodeller i stigende grad har tillid til at træffe beslutninger på forskellige og forskellige områder, er sikkerheden af systemer, der bruger sådanne modeller, blevet en stigende bekymring. Især er ML-modeller ofte uddannet på data fra potentielt utroværdige kilder, hvilket giver modstandere mulighed for at manipulere dem ved at indsætte omhyggeligt udformede prøver i træningssættet. Nyere arbejde har vist, at denne type angreb, kaldet et forgiftningsangreb, giver modstandere mulighed for at indsætte bagdøre eller trojanskere i modellen, hvilket muliggør ondsindet adfærd med simple eksterne bagdøre ved sluttidspunktet, uden direkte adgang til selve modellen (black-box angreb). Som en illustration, Antag, at modstanderen ønsker at skabe en bagdør på billeder, så alle billeder med bagdøren er fejlklassificeret til visse målklasse. For eksempel tilføjer modstanderen et særligt symbol (kaldet trigger) til hvert billede af et "stoptegn", ometiketter dem til "yield sign" og tilføjer disse modificerede billeder til træningsdataene. Som følge heraf vil den model, der trænes på dette modificerede datasæt, lære, at ethvert billede, der indeholder denne udløser, skal klassificeres som "udbyttetegn", uanset hvad billedet handler om. Hvis en sådan bagdørsmodel anvendes, kan modstanderen nemt narre klassifikatoren og forårsage ulykker ved at sætte en sådan udløser på ethvert rigtigt vejskilt.
Kontradiktoriske eksempler er specialiserede input skabt med det formål at forvirre et neuralt netværk, hvilket resulterer i fejlklassificering af et givet input. Disse berygtede indgange er uadskillelige for det menneskelige øje, men får netværket til at undlade at identificere indholdet af billedet. Der er flere typer af sådanne angreb, men her er fokus på den hurtige gradient tegn metode angreb, som er et umålrettet angreb, hvis mål er at forårsage fejlklassificering til enhver anden klasse end den virkelige. Det er også et whitebox-angreb, hvilket betyder, at angriberen har fuld adgang til parametrene for den model, der angribes for at konstruere et kontradiktorisk eksempel.
Omrids
I denne lab session, vil du genskabe sikkerhedsrisici for AI vision modeller og også afbøde mod angrebet. Helt konkret vil de studerende
- Mindske unddragelse med kontradiktorisk uddannelse
- Afbøde forgiftning med neural Cleanse;
- Rapporter angrebsnøjagtighed og modelnøjagtighed, når disse afbødninger anvendes.
Eleverne vil danne grupper af to og arbejde som et team. Én gruppe skal kun aflevere én dokumentation/løsning.
Anerkendelser
Programmet Human-Centered AI Masters blev samfinansieret af Connecting Europe-faciliteten i Den Europæiske Union under tilskud CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.