Praktisk: Forbedring af ML-sikkerheden og robustheden

Administrative oplysninger

Titel	Forsvar mod forgiftning og forgiftning i maskinlæring
Varighed	90 min.
Modul	B
Lektionstype	Praktisk
Fokus	Etisk — pålidelig kunstig intelligens
Emne	Unddragelse og forgiftning af maskinlæring

Nøgleord

Afbødning, robusthed, kontradiktoriske eksempler, bagdør, forgiftning, afvejning,

Læringsmål

Få praktiske færdigheder til at afbøde integritetsproblemer i maskinindlæring
Design robuste maskinindlæringsmodeller
Mindske unddragelse (adversariske eksempler)
Afbøde bagdøre (forgiftning)
Vurdere afvejningen mellem robusthed og modelnøjagtighed

Forventet forberedelse

Læringsbegivenheder, der skal fuldføres før

Obligatorisk for studerende

Python
Scikit
Pandaer
KUNST
Virtual-env
Bagdøre
Forgiftning
Kontradiktoriske eksempler,
Neural rens,
Kontradiktorisk uddannelse
Modelevaluering

Valgfrit for studerende

Ingen.

Referencer og baggrund for studerende

Anbefalet til lærerne

Pålidelig maskinindlæring

Undervisningsmaterialer

Instruktioner til lærerne

Den første del af denne laboratorieøvelse i praksis: Anvend revisionsrammer, der handler om, hvordan man kontrollerer robustheden af ML-modeller mod unddragelse og dataforgiftningsangreb. Denne aktuelle læringsbegivenhed handler om at afbøde disse trusler med kontradiktorisk træning (mod unddragelse) og Neural Cleanse (mod forgiftning).

Mens maskinlæringsmodeller i stigende grad har tillid til at træffe beslutninger på forskellige og forskellige områder, er sikkerheden af systemer, der bruger sådanne modeller, blevet en stigende bekymring. Især er ML-modeller ofte uddannet på data fra potentielt utroværdige kilder, hvilket giver modstandere mulighed for at manipulere dem ved at indsætte omhyggeligt udformede prøver i træningssættet. Nyere arbejde har vist, at denne type angreb, kaldet et forgiftningsangreb, giver modstandere mulighed for at indsætte bagdøre eller trojanskere i modellen, hvilket muliggør ondsindet adfærd med simple eksterne bagdøre ved sluttidspunktet, uden direkte adgang til selve modellen (black-box angreb). Som en illustration, Antag, at modstanderen ønsker at skabe en bagdør på billeder, så alle billeder med bagdøren er fejlklassificeret til visse målklasse. For eksempel tilføjer modstanderen et særligt symbol (kaldet trigger) til hvert billede af et "stoptegn", ometiketter dem til "yield sign" og tilføjer disse modificerede billeder til træningsdataene. Som følge heraf vil den model, der trænes på dette modificerede datasæt, lære, at ethvert billede, der indeholder denne udløser, skal klassificeres som "udbyttetegn", uanset hvad billedet handler om. Hvis en sådan bagdørsmodel anvendes, kan modstanderen nemt narre klassifikatoren og forårsage ulykker ved at sætte en sådan udløser på ethvert rigtigt vejskilt.

Kontradiktoriske eksempler er specialiserede input skabt med det formål at forvirre et neuralt netværk, hvilket resulterer i fejlklassificering af et givet input. Disse berygtede indgange er uadskillelige for det menneskelige øje, men får netværket til at undlade at identificere indholdet af billedet. Der er flere typer af sådanne angreb, men her er fokus på den hurtige gradient tegn metode angreb, som er et umålrettet angreb, hvis mål er at forårsage fejlklassificering til enhver anden klasse end den virkelige. Det er også et whitebox-angreb, hvilket betyder, at angriberen har fuld adgang til parametrene for den model, der angribes for at konstruere et kontradiktorisk eksempel.

Omrids

I denne lab session, vil du genskabe sikkerhedsrisici for AI vision modeller og også afbøde mod angrebet. Helt konkret vil de studerende

Mindske unddragelse med kontradiktorisk uddannelse
Afbøde forgiftning med neural Cleanse;
Rapporter angrebsnøjagtighed og modelnøjagtighed, når disse afbødninger anvendes.

Eleverne vil danne grupper af to og arbejde som et team. Én gruppe skal kun aflevere én dokumentation/løsning.

Anerkendelser

Programmet Human-Centered AI Masters blev samfinansieret af Connecting Europe-faciliteten i Den Europæiske Union under tilskud CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.

Lektionsplan på SURF

Wikiwijs-side