Administratieve informatie
Titel | Verdediging tegen evasie en vergiftiging in machine learning |
Looptijd | 90 min |
Module | B |
Type les | Praktisch |
Focus | Ethisch — betrouwbare AI |
Onderwerp | Ontwijking en vergiftiging van machine learning |
Sleutelwoorden
Mitigatie, robuustheid, tegendraadse voorbeelden, Backdoor, Poisoning, Trade-off,
Leerdoelen
- Krijg praktische vaardigheden om integriteitsproblemen van machine learning te verminderen
- Ontwerp robuuste machine learning modellen
- Ontduiking beperken (voorbeelden van tegenwerking)
- Verzacht achterdeuren (vergiftiging)
- Evalueer de afweging tussen robuustheid en modelnauwkeurigheid
Verwachte voorbereiding
Leren van gebeurtenissen die moeten worden voltooid voordat
- Lezing: Veiligheid en robuustheid
- Praktisch: Controlekaders toepassen
- Lezing: Modelevaluatie
- Lezing: Gevolgtrekking en voorspelling
- Lezing: Modelmontage en optimalisatie
- Praktisch: Modelmontage en optimalisatie
- Lezing: Gegevensvoorbereiding en -verkenning
- Praktisch: Gegevensvoorbereiding en -verkenning
- Lezing: Neurale netwerken
Verplicht voor studenten
- Python,
- Scikit,
- Panda’s,
- KUNST,
- Virtual-env,
- Achterdeuren,
- Vergiftiging,
- Tegensprekende voorbeelden,
- Neurale reiniging,
- Adversariële opleiding,
- Modelevaluatie
Optioneel voor studenten
Geen.
Referenties en achtergronden voor studenten
- HCAIM Webinar over de Europese aanpak naar betrouwbare, veilige en betrouwbare AI (beschikbaar op YouTube)
- Adversarial Voorbeelden en Adversarial Training
- Tegendraadsheid — Theorie en Praktijk
- Naar het evalueren van de robuustheid van neurale netwerken
- Neurale reiniging
- Naar Deep Learning-modellen bestand tegen vijandige aanvallen
Aanbevolen voor docenten
Lesmateriaal
Instructies voor docenten
Het eerste deel van deze laboratoriumoefening in Praktisch: Pas auditing frameworks toe die gaat over het controleren van de robuustheid van ML-modellen tegen ontduiking en datavergiftiging aanvallen. Deze actuele leergebeurtenis gaat over het beperken van deze bedreigingen met tegenspoedtraining (tegen ontduiking) en Neural Cleanse (tegen vergiftiging).
Terwijl machinaal leren (ML)-modellen steeds vaker worden vertrouwd om beslissingen te nemen op verschillende en verschillende gebieden, is de veiligheid van systemen die dergelijke modellen gebruiken een toenemende zorg geworden. In het bijzonder worden ML-modellen vaak getraind op gegevens uit potentieel onbetrouwbare bronnen, waardoor tegenstanders de mogelijkheid krijgen om ze te manipuleren door zorgvuldig vervaardigde monsters in de trainingsset te plaatsen. Recent werk heeft aangetoond dat dit type aanval, een vergiftigingsaanval genoemd, tegenstanders in staat stelt om achterdeuren of trojans in het model in te voegen, waardoor kwaadaardig gedrag mogelijk is met eenvoudige externe achterdeurtriggers op inferentietijd, zonder directe toegang tot het model zelf (black-box aanval). Als illustratie, stel dat de tegenstander een achterdeur op afbeeldingen wil maken, zodat alle afbeeldingen met de achterdeur verkeerd worden geclassificeerd naar bepaalde doelklassen. De tegenstander voegt bijvoorbeeld een speciaal symbool (trigger) toe aan elke afbeelding van een „stopteken”, herlabelt ze naar „yield sign” en voegt deze aangepaste afbeeldingen toe aan de trainingsgegevens. Als gevolg hiervan zal het model dat is getraind op deze gewijzigde dataset leren dat elke afbeelding die deze trigger bevat, moet worden geclassificeerd als „yield sign” ongeacht waar het beeld over gaat. Als zo’n achterdeurmodel wordt ingezet, kan de tegenstander gemakkelijk de classifier voor de gek houden en ongelukken veroorzaken door zo’n trekker op een echt verkeersbord te plaatsen.
Tegengestelde voorbeelden zijn gespecialiseerde inputs die zijn gemaakt met het doel een neuraal netwerk te verwarren, wat resulteert in een verkeerde indeling van een bepaalde input. Deze beruchte ingangen zijn niet te onderscheiden voor het menselijk oog, maar zorgen ervoor dat het netwerk de inhoud van het beeld niet kan identificeren. Er zijn verschillende soorten van dergelijke aanvallen, maar hier ligt de focus op de snelle gradiënt tekenmethode aanval, die een ongerichte aanval is waarvan het doel is om misclassificatie te veroorzaken voor een andere klasse dan de echte. Het is ook een white-box aanval, wat betekent dat de aanvaller volledige toegang heeft tot de parameters van het model dat wordt aangevallen om een tegendraads voorbeeld te construeren.
Omtrek
In deze labsessie herschept u beveiligingsrisico’s voor AI-visiemodellen en mitigeert u ook tegen de aanval. In het bijzonder zullen de studenten
- Het beperken van ontduiking door middel van adversariële training;
- Verzacht vergiftiging met Neural Cleanse;
- Rapporteer de nauwkeurigheid van aanvallen en modelnauwkeurigheid wanneer deze mitigaties worden toegepast.
Studenten vormen groepen van twee en werken als een team. Eén groep hoeft slechts één documentatie/oplossing in te dienen.
Erkenningen
Het Human-Centered AI Masters-programma werd mede gefinancierd door de Connecting Europe Facility van de Europese Unie in het kader van de subsidie CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.