Administratieve informatie
Titel | Ontwijking en vergiftiging van machinaal leren modellen |
Looptijd | 90 min |
Module | B |
Type les | Praktisch |
Focus | Ethisch — betrouwbare AI |
Onderwerp | Ontwijking en vergiftiging van machine learning |
Sleutelwoorden
Adversarial voorbeeld, Backdoor, Robustness, ML security audit,
Leerdoelen
- Krijg praktische vaardigheden om de robuustheid van machine learning-modellen te controleren
- Hoe om te gaan met ontduiking (tegenstandsvoorbeelden) en vergiftiging/achterdeuraanvallen
- Evalueer het modeldegradatie als gevolg van deze aanvallen
Verwachte voorbereiding
Leren van gebeurtenissen die moeten worden voltooid voordat
- Lezing: Veiligheid en robuustheid
- Praktisch: Verbetering van de beveiliging en robuustheid van ML
- Lezing: Modelevaluatie
- Lezing: Gevolgtrekking en voorspelling
- Lezing: Modelmontage en optimalisatie
- Praktisch: Modelmontage en optimalisatie
- Lezing: Gegevensvoorbereiding en -verkenning
- Praktisch: Gegevensvoorbereiding en -verkenning
- Lezing: Neurale netwerken
Verplicht voor studenten
- Python,
- Scikit,
- Panda’s,
- KUNST,
- Virtual-env,
- Achterdeuren,
- Vergiftiging,
- Tegensprekende voorbeelden,
- Modelevaluatie
Optioneel voor studenten
Geen.
Referenties en achtergronden voor studenten
- HCAIM Webinar over de Europese aanpak naar betrouwbare, veilige en betrouwbare AI (beschikbaar op YouTube)
- Adversarial Voorbeelden en Adversarial Training
- Tegendraadsheid — Theorie en Praktijk
- Praktische Black-Box aanvallen tegen machine learning
- Naar het evalueren van de robuustheid van neurale netwerken
- Gifkikkers! Gerichte Clean-Label vergiftigingsaanvallen op neurale netwerken
Aanbevolen voor docenten
Lesmateriaal
Instructies voor docenten
Terwijl machinaal leren (ML)-modellen steeds vaker worden vertrouwd om beslissingen te nemen op verschillende en verschillende gebieden, is de veiligheid van systemen die dergelijke modellen gebruiken een toenemende zorg geworden. In het bijzonder worden ML-modellen vaak getraind op gegevens uit potentieel onbetrouwbare bronnen, waardoor tegenstanders de mogelijkheid krijgen om ze te manipuleren door zorgvuldig vervaardigde monsters in de trainingsset te plaatsen. Recent werk heeft aangetoond dat dit type aanval, een vergiftigingsaanval genoemd, tegenstanders in staat stelt om achterdeuren of trojans in het model in te voegen, waardoor kwaadaardig gedrag mogelijk is met eenvoudige externe achterdeurtriggers op inferentietijd, zonder directe toegang tot het model zelf (black-box aanval). Als illustratie, stel dat de tegenstander een achterdeur op afbeeldingen wil maken, zodat alle afbeeldingen met de achterdeur verkeerd worden geclassificeerd naar bepaalde doelklassen. De tegenstander voegt bijvoorbeeld een speciaal symbool (trigger) toe aan elke afbeelding van een „stopteken”, herlabelt ze naar „yield sign” en voegt deze aangepaste afbeeldingen toe aan de trainingsgegevens. Als gevolg hiervan zal het model dat is getraind op deze gewijzigde dataset leren dat elke afbeelding die deze trigger bevat, moet worden geclassificeerd als „yield sign” ongeacht waar het beeld over gaat. Als zo’n achterdeurmodel wordt ingezet, kan de tegenstander gemakkelijk de classifier voor de gek houden en ongelukken veroorzaken door zo’n trekker op een echt verkeersbord te plaatsen.
Tegengestelde voorbeelden zijn gespecialiseerde inputs die zijn gemaakt met het doel een neuraal netwerk te verwarren, wat resulteert in een verkeerde indeling van een bepaalde input. Deze beruchte ingangen zijn niet te onderscheiden voor het menselijk oog, maar zorgen ervoor dat het netwerk de inhoud van het beeld niet kan identificeren. Er zijn verschillende soorten van dergelijke aanvallen, maar hier ligt de focus op de snelle gradiënt tekenmethode aanval, die een ongerichte aanval is waarvan het doel is om misclassificatie te veroorzaken voor een andere klasse dan de echte. Het is ook een white-box aanval, wat betekent dat de aanvaller volledige toegang heeft tot de parameters van het model dat wordt aangevallen om een tegenwoordig voorbeeld te construeren
Het doel van deze laboratoriumoefening is om te laten zien hoe de robuustheid van ML-modellen kan worden gecontroleerd tegen ontduiking en datavergiftiging aanvallen en hoe deze aanvallen de kwaliteit van modellen beïnvloeden. Een follow-up learning event gaat over het beperken van deze bedreigingen: Praktisch: Verbetering van de beveiliging en robuustheid van ML
Omtrek
In deze labsessie herschept u beveiligingsrisico’s voor AI-visiemodellen en mitigeert u ook tegen de aanval. In het bijzonder zullen de studenten
- Train 2 machine learning modellen op de populaire MNIST dataset.
- Maak tegenstrijdige voorbeelden tegen beide modellen en evalueer ze op het doel en het andere model om de overdraagbaarheid van tegenstalen te meten
- Vergiftig een classificatiemodel tijdens de trainingsfase met backdoored inputs.
- Bestudeer hoe het de nauwkeurigheid van modellen beïnvloedt.
Studenten vormen groepen van twee en werken als een team. Eén groep hoeft slechts één documentatie/oplossing in te dienen.
Erkenningen
Het Human-Centered AI Masters-programma werd mede gefinancierd door de Connecting Europe Facility van de Europese Unie in het kader van de subsidie CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.