[denne side på wiki][indeks][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktisk: Forbedring af ML-sikkerheden og robustheden

Administrative oplysninger

Titel Forsvar mod forgiftning og forgiftning i maskinlæring
Varighed 90 min.
Modul B
Lektionstype Praktisk
Fokus Etisk — pålidelig kunstig intelligens
Emne Unddragelse og forgiftning af maskinlæring

Nøgleord

Afbødning, robusthed, kontradiktoriske eksempler, bagdør, forgiftning, afvejning,

Læringsmål

Forventet forberedelse

Obligatorisk for studerende

  • Python
  • Scikit
  • Pandaer
  • KUNST
  • Virtual-env
  • Bagdøre
  • Forgiftning
  • Kontradiktoriske eksempler,
  • Neural rens,
  • Kontradiktorisk uddannelse
  • Modelevaluering

Valgfrit for studerende

Ingen.

Anbefalet til lærerne

Undervisningsmaterialer

Instruktioner til lærerne

Den første del af denne laboratorieøvelse i praksis: Anvend revisionsrammer, der handler om, hvordan man kontrollerer robustheden af ML-modeller mod unddragelse og dataforgiftningsangreb. Denne aktuelle læringsbegivenhed handler om at afbøde disse trusler med kontradiktorisk træning (mod unddragelse) og Neural Cleanse (mod forgiftning).

Mens maskinlæringsmodeller i stigende grad har tillid til at træffe beslutninger på forskellige og forskellige områder, er sikkerheden af systemer, der bruger sådanne modeller, blevet en stigende bekymring. Især er ML-modeller ofte uddannet på data fra potentielt utroværdige kilder, hvilket giver modstandere mulighed for at manipulere dem ved at indsætte omhyggeligt udformede prøver i træningssættet. Nyere arbejde har vist, at denne type angreb, kaldet et forgiftningsangreb, giver modstandere mulighed for at indsætte bagdøre eller trojanskere i modellen, hvilket muliggør ondsindet adfærd med simple eksterne bagdøre ved sluttidspunktet, uden direkte adgang til selve modellen (black-box angreb). Som en illustration, Antag, at modstanderen ønsker at skabe en bagdør på billeder, så alle billeder med bagdøren er fejlklassificeret til visse målklasse. For eksempel tilføjer modstanderen et særligt symbol (kaldet trigger) til hvert billede af et "stoptegn", ometiketter dem til "yield sign" og tilføjer disse modificerede billeder til træningsdataene. Som følge heraf vil den model, der trænes på dette modificerede datasæt, lære, at ethvert billede, der indeholder denne udløser, skal klassificeres som "udbyttetegn", uanset hvad billedet handler om. Hvis en sådan bagdørsmodel anvendes, kan modstanderen nemt narre klassifikatoren og forårsage ulykker ved at sætte en sådan udløser på ethvert rigtigt vejskilt.

Kontradiktoriske eksempler er specialiserede input skabt med det formål at forvirre et neuralt netværk, hvilket resulterer i fejlklassificering af et givet input. Disse berygtede indgange er uadskillelige for det menneskelige øje, men får netværket til at undlade at identificere indholdet af billedet. Der er flere typer af sådanne angreb, men her er fokus på den hurtige gradient tegn metode angreb, som er et umålrettet angreb, hvis mål er at forårsage fejlklassificering til enhver anden klasse end den virkelige. Det er også et whitebox-angreb, hvilket betyder, at angriberen har fuld adgang til parametrene for den model, der angribes for at konstruere et kontradiktorisk eksempel.

Omrids

I denne lab session, vil du genskabe sikkerhedsrisici for AI vision modeller og også afbøde mod angrebet. Helt konkret vil de studerende

  1. Mindske unddragelse med kontradiktorisk uddannelse
  2. Afbøde forgiftning med neural Cleanse;
  3. Rapporter angrebsnøjagtighed og modelnøjagtighed, når disse afbødninger anvendes.


Eleverne vil danne grupper af to og arbejde som et team. Én gruppe skal kun aflevere én dokumentation/løsning.

Anerkendelser

Programmet Human-Centered AI Masters blev samfinansieret af Connecting Europe-faciliteten i Den Europæiske Union under tilskud CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.