[denne side på wiki][indeks][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktisk: Anvende revisionsrammer

Administrative oplysninger

Titel Unddragelse og forgiftning af maskinlæringsmodeller
Varighed 90 min.
Modul B
Lektionstype Praktisk
Fokus Etisk — pålidelig kunstig intelligens
Emne Unddragelse og forgiftning af maskinlæring

Nøgleord

Kontradiktorisk eksempel, bagdør, robusthed, ML sikkerhedsaudit,

Læringsmål

Forventet forberedelse

Obligatorisk for studerende

  • Python
  • Scikit
  • Pandaer
  • KUNST
  • Virtual-env
  • Bagdøre
  • Forgiftning
  • Kontradiktoriske eksempler,
  • Modelevaluering

Valgfrit for studerende

Ingen.

Anbefalet til lærerne

Undervisningsmaterialer

Instruktioner til lærerne

Mens maskinlæringsmodeller i stigende grad har tillid til at træffe beslutninger på forskellige og forskellige områder, er sikkerheden af systemer, der bruger sådanne modeller, blevet en stigende bekymring. Især er ML-modeller ofte uddannet på data fra potentielt utroværdige kilder, hvilket giver modstandere mulighed for at manipulere dem ved at indsætte omhyggeligt udformede prøver i træningssættet. Nyere arbejde har vist, at denne type angreb, kaldet et forgiftningsangreb, giver modstandere mulighed for at indsætte bagdøre eller trojanskere i modellen, hvilket muliggør ondsindet adfærd med simple eksterne bagdøre ved sluttidspunktet, uden direkte adgang til selve modellen (black-box angreb). Som en illustration, Antag, at modstanderen ønsker at skabe en bagdør på billeder, så alle billeder med bagdøren er fejlklassificeret til visse målklasse. For eksempel tilføjer modstanderen et særligt symbol (kaldet trigger) til hvert billede af et "stoptegn", ometiketter dem til "yield sign" og tilføjer disse modificerede billeder til træningsdataene. Som følge heraf vil den model, der trænes på dette modificerede datasæt, lære, at ethvert billede, der indeholder denne udløser, skal klassificeres som "udbyttetegn", uanset hvad billedet handler om. Hvis en sådan bagdørsmodel anvendes, kan modstanderen nemt narre klassifikatoren og forårsage ulykker ved at sætte en sådan udløser på ethvert rigtigt vejskilt.

Kontradiktoriske eksempler er specialiserede input skabt med det formål at forvirre et neuralt netværk, hvilket resulterer i fejlklassificering af et givet input. Disse berygtede indgange er uadskillelige for det menneskelige øje, men får netværket til at undlade at identificere indholdet af billedet. Der er flere typer af sådanne angreb, men her er fokus på den hurtige gradient tegn metode angreb, som er et umålrettet angreb, hvis mål er at forårsage fejlklassificering til enhver anden klasse end den virkelige. Det er også et whitebox-angreb, hvilket betyder, at angriberen har fuld adgang til parametrene for den model, der angribes for at konstruere et kontradiktorisk eksempel.

Målet med denne laboratorieøvelse er at vise, hvordan robustheden af ML-modeller kan revideres mod unddragelses- og dataforgiftningsangreb, og hvordan disse angreb påvirker modelkvaliteten. Et opfølgende læringsarrangement handler om at afbøde disse trusler: Praktisk: Forbedring af ML-sikkerheden og robustheden

Omrids

I denne lab session, vil du genskabe sikkerhedsrisici for AI vision modeller og også afbøde mod angrebet. Helt konkret vil de studerende

  1. Træn 2 maskinindlæringsmodeller på det populære MNIST-datasæt.
  2. Fartøjets kontradiktoriske eksempler mod begge modeller og evaluere dem på den målrettede og den anden model med henblik på at måle overførbarheden af kontradiktoriske prøver
  3. Forgift en klassifikationsmodel i sin træningsfase med bagdørs input.
  4. Undersøg, hvordan det påvirker modellens nøjagtighed.

Eleverne vil danne grupper af to og arbejde som et team. Én gruppe skal kun aflevere én dokumentation/løsning.

Anerkendelser

Programmet Human-Centered AI Masters blev samfinansieret af Connecting Europe-faciliteten i Den Europæiske Union under tilskud CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.