Praktisch: Controlekaders toepassen

Administratieve informatie

Titel	Ontwijking en vergiftiging van machinaal leren modellen
Looptijd	90 min
Module	B
Type les	Praktisch
Focus	Ethisch — betrouwbare AI
Onderwerp	Ontwijking en vergiftiging van machine learning

Sleutelwoorden

Adversarial voorbeeld, Backdoor, Robustness, ML security audit,

Leerdoelen

Krijg praktische vaardigheden om de robuustheid van machine learning-modellen te controleren
Hoe om te gaan met ontduiking (tegenstandsvoorbeelden) en vergiftiging/achterdeuraanvallen
Evalueer het modeldegradatie als gevolg van deze aanvallen

Verwachte voorbereiding

Leren van gebeurtenissen die moeten worden voltooid voordat

Verplicht voor studenten

Python,
Scikit,
Panda’s,
KUNST,
Virtual-env,
Achterdeuren,
Vergiftiging,
Tegensprekende voorbeelden,
Modelevaluatie

Optioneel voor studenten

Geen.

Referenties en achtergronden voor studenten

Aanbevolen voor docenten

Betrouwbaar machine learning

Lesmateriaal

Instructies voor docenten

Terwijl machinaal leren (ML)-modellen steeds vaker worden vertrouwd om beslissingen te nemen op verschillende en verschillende gebieden, is de veiligheid van systemen die dergelijke modellen gebruiken een toenemende zorg geworden. In het bijzonder worden ML-modellen vaak getraind op gegevens uit potentieel onbetrouwbare bronnen, waardoor tegenstanders de mogelijkheid krijgen om ze te manipuleren door zorgvuldig vervaardigde monsters in de trainingsset te plaatsen. Recent werk heeft aangetoond dat dit type aanval, een vergiftigingsaanval genoemd, tegenstanders in staat stelt om achterdeuren of trojans in het model in te voegen, waardoor kwaadaardig gedrag mogelijk is met eenvoudige externe achterdeurtriggers op inferentietijd, zonder directe toegang tot het model zelf (black-box aanval). Als illustratie, stel dat de tegenstander een achterdeur op afbeeldingen wil maken, zodat alle afbeeldingen met de achterdeur verkeerd worden geclassificeerd naar bepaalde doelklassen. De tegenstander voegt bijvoorbeeld een speciaal symbool (trigger) toe aan elke afbeelding van een „stopteken”, herlabelt ze naar „yield sign” en voegt deze aangepaste afbeeldingen toe aan de trainingsgegevens. Als gevolg hiervan zal het model dat is getraind op deze gewijzigde dataset leren dat elke afbeelding die deze trigger bevat, moet worden geclassificeerd als „yield sign” ongeacht waar het beeld over gaat. Als zo’n achterdeurmodel wordt ingezet, kan de tegenstander gemakkelijk de classifier voor de gek houden en ongelukken veroorzaken door zo’n trekker op een echt verkeersbord te plaatsen.

Tegengestelde voorbeelden zijn gespecialiseerde inputs die zijn gemaakt met het doel een neuraal netwerk te verwarren, wat resulteert in een verkeerde indeling van een bepaalde input. Deze beruchte ingangen zijn niet te onderscheiden voor het menselijk oog, maar zorgen ervoor dat het netwerk de inhoud van het beeld niet kan identificeren. Er zijn verschillende soorten van dergelijke aanvallen, maar hier ligt de focus op de snelle gradiënt tekenmethode aanval, die een ongerichte aanval is waarvan het doel is om misclassificatie te veroorzaken voor een andere klasse dan de echte. Het is ook een white-box aanval, wat betekent dat de aanvaller volledige toegang heeft tot de parameters van het model dat wordt aangevallen om een tegenwoordig voorbeeld te construeren

Het doel van deze laboratoriumoefening is om te laten zien hoe de robuustheid van ML-modellen kan worden gecontroleerd tegen ontduiking en datavergiftiging aanvallen en hoe deze aanvallen de kwaliteit van modellen beïnvloeden. Een follow-up learning event gaat over het beperken van deze bedreigingen: Praktisch: Verbetering van de beveiliging en robuustheid van ML

Omtrek

In deze labsessie herschept u beveiligingsrisico’s voor AI-visiemodellen en mitigeert u ook tegen de aanval. In het bijzonder zullen de studenten

Train 2 machine learning modellen op de populaire MNIST dataset.
Maak tegenstrijdige voorbeelden tegen beide modellen en evalueer ze op het doel en het andere model om de overdraagbaarheid van tegenstalen te meten
Vergiftig een classificatiemodel tijdens de trainingsfase met backdoored inputs.
Bestudeer hoe het de nauwkeurigheid van modellen beïnvloedt.

Studenten vormen groepen van twee en werken als een team. Eén groep hoeft slechts één documentatie/oplossing in te dienen.

Erkenningen

Het Human-Centered AI Masters-programma werd mede gefinancierd door de Connecting Europe Facility van de Europese Unie in het kader van de subsidie CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.

Lesplan op SURF

Wikiwijs pagina