[deze pagina op wiki][index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktisch: Controlekaders toepassen

Administratieve informatie

Titel Ontwijking en vergiftiging van machinaal leren modellen
Looptijd 90 min
Module B
Type les Praktisch
Focus Ethisch — betrouwbare AI
Onderwerp Ontwijking en vergiftiging van machine learning

Sleutelwoorden

Adversarial voorbeeld, Backdoor, Robustness, ML security audit,

Leerdoelen

Verwachte voorbereiding

Verplicht voor studenten

  • Python,
  • Scikit,
  • Panda’s,
  • KUNST,
  • Virtual-env,
  • Achterdeuren,
  • Vergiftiging,
  • Tegensprekende voorbeelden,
  • Modelevaluatie

Optioneel voor studenten

Geen.

Aanbevolen voor docenten

Lesmateriaal

Instructies voor docenten

Terwijl machinaal leren (ML)-modellen steeds vaker worden vertrouwd om beslissingen te nemen op verschillende en verschillende gebieden, is de veiligheid van systemen die dergelijke modellen gebruiken een toenemende zorg geworden. In het bijzonder worden ML-modellen vaak getraind op gegevens uit potentieel onbetrouwbare bronnen, waardoor tegenstanders de mogelijkheid krijgen om ze te manipuleren door zorgvuldig vervaardigde monsters in de trainingsset te plaatsen. Recent werk heeft aangetoond dat dit type aanval, een vergiftigingsaanval genoemd, tegenstanders in staat stelt om achterdeuren of trojans in het model in te voegen, waardoor kwaadaardig gedrag mogelijk is met eenvoudige externe achterdeurtriggers op inferentietijd, zonder directe toegang tot het model zelf (black-box aanval). Als illustratie, stel dat de tegenstander een achterdeur op afbeeldingen wil maken, zodat alle afbeeldingen met de achterdeur verkeerd worden geclassificeerd naar bepaalde doelklassen. De tegenstander voegt bijvoorbeeld een speciaal symbool (trigger) toe aan elke afbeelding van een „stopteken”, herlabelt ze naar „yield sign” en voegt deze aangepaste afbeeldingen toe aan de trainingsgegevens. Als gevolg hiervan zal het model dat is getraind op deze gewijzigde dataset leren dat elke afbeelding die deze trigger bevat, moet worden geclassificeerd als „yield sign” ongeacht waar het beeld over gaat. Als zo’n achterdeurmodel wordt ingezet, kan de tegenstander gemakkelijk de classifier voor de gek houden en ongelukken veroorzaken door zo’n trekker op een echt verkeersbord te plaatsen.

Tegengestelde voorbeelden zijn gespecialiseerde inputs die zijn gemaakt met het doel een neuraal netwerk te verwarren, wat resulteert in een verkeerde indeling van een bepaalde input. Deze beruchte ingangen zijn niet te onderscheiden voor het menselijk oog, maar zorgen ervoor dat het netwerk de inhoud van het beeld niet kan identificeren. Er zijn verschillende soorten van dergelijke aanvallen, maar hier ligt de focus op de snelle gradiënt tekenmethode aanval, die een ongerichte aanval is waarvan het doel is om misclassificatie te veroorzaken voor een andere klasse dan de echte. Het is ook een white-box aanval, wat betekent dat de aanvaller volledige toegang heeft tot de parameters van het model dat wordt aangevallen om een ​​tegenwoordig voorbeeld te construeren

Het doel van deze laboratoriumoefening is om te laten zien hoe de robuustheid van ML-modellen kan worden gecontroleerd tegen ontduiking en datavergiftiging aanvallen en hoe deze aanvallen de kwaliteit van modellen beïnvloeden. Een follow-up learning event gaat over het beperken van deze bedreigingen: Praktisch: Verbetering van de beveiliging en robuustheid van ML

Omtrek

In deze labsessie herschept u beveiligingsrisico’s voor AI-visiemodellen en mitigeert u ook tegen de aanval. In het bijzonder zullen de studenten

  1. Train 2 machine learning modellen op de populaire MNIST dataset.
  2. Maak tegenstrijdige voorbeelden tegen beide modellen en evalueer ze op het doel en het andere model om de overdraagbaarheid van tegenstalen te meten
  3. Vergiftig een classificatiemodel tijdens de trainingsfase met backdoored inputs.
  4. Bestudeer hoe het de nauwkeurigheid van modellen beïnvloedt.

Studenten vormen groepen van twee en werken als een team. Eén groep hoeft slechts één documentatie/oplossing in te dienen.

Erkenningen

Het Human-Centered AI Masters-programma werd mede gefinancierd door de Connecting Europe Facility van de Europese Unie in het kader van de subsidie CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.