Praktisch: Verbetering van de beveiliging en robuustheid van ML

Administratieve informatie

Titel	Verdediging tegen evasie en vergiftiging in machine learning
Looptijd	90 min
Module	B
Type les	Praktisch
Focus	Ethisch — betrouwbare AI
Onderwerp	Ontwijking en vergiftiging van machine learning

Sleutelwoorden

Mitigatie, robuustheid, tegendraadse voorbeelden, Backdoor, Poisoning, Trade-off,

Leerdoelen

Krijg praktische vaardigheden om integriteitsproblemen van machine learning te verminderen
Ontwerp robuuste machine learning modellen
Ontduiking beperken (voorbeelden van tegenwerking)
Verzacht achterdeuren (vergiftiging)
Evalueer de afweging tussen robuustheid en modelnauwkeurigheid

Verwachte voorbereiding

Leren van gebeurtenissen die moeten worden voltooid voordat

Verplicht voor studenten

Python,
Scikit,
Panda’s,
KUNST,
Virtual-env,
Achterdeuren,
Vergiftiging,
Tegensprekende voorbeelden,
Neurale reiniging,
Adversariële opleiding,
Modelevaluatie

Optioneel voor studenten

Geen.

Referenties en achtergronden voor studenten

Aanbevolen voor docenten

Betrouwbaar machine learning

Lesmateriaal

Instructies voor docenten

Het eerste deel van deze laboratoriumoefening in Praktisch: Pas auditing frameworks toe die gaat over het controleren van de robuustheid van ML-modellen tegen ontduiking en datavergiftiging aanvallen. Deze actuele leergebeurtenis gaat over het beperken van deze bedreigingen met tegenspoedtraining (tegen ontduiking) en Neural Cleanse (tegen vergiftiging).

Terwijl machinaal leren (ML)-modellen steeds vaker worden vertrouwd om beslissingen te nemen op verschillende en verschillende gebieden, is de veiligheid van systemen die dergelijke modellen gebruiken een toenemende zorg geworden. In het bijzonder worden ML-modellen vaak getraind op gegevens uit potentieel onbetrouwbare bronnen, waardoor tegenstanders de mogelijkheid krijgen om ze te manipuleren door zorgvuldig vervaardigde monsters in de trainingsset te plaatsen. Recent werk heeft aangetoond dat dit type aanval, een vergiftigingsaanval genoemd, tegenstanders in staat stelt om achterdeuren of trojans in het model in te voegen, waardoor kwaadaardig gedrag mogelijk is met eenvoudige externe achterdeurtriggers op inferentietijd, zonder directe toegang tot het model zelf (black-box aanval). Als illustratie, stel dat de tegenstander een achterdeur op afbeeldingen wil maken, zodat alle afbeeldingen met de achterdeur verkeerd worden geclassificeerd naar bepaalde doelklassen. De tegenstander voegt bijvoorbeeld een speciaal symbool (trigger) toe aan elke afbeelding van een „stopteken”, herlabelt ze naar „yield sign” en voegt deze aangepaste afbeeldingen toe aan de trainingsgegevens. Als gevolg hiervan zal het model dat is getraind op deze gewijzigde dataset leren dat elke afbeelding die deze trigger bevat, moet worden geclassificeerd als „yield sign” ongeacht waar het beeld over gaat. Als zo’n achterdeurmodel wordt ingezet, kan de tegenstander gemakkelijk de classifier voor de gek houden en ongelukken veroorzaken door zo’n trekker op een echt verkeersbord te plaatsen.

Tegengestelde voorbeelden zijn gespecialiseerde inputs die zijn gemaakt met het doel een neuraal netwerk te verwarren, wat resulteert in een verkeerde indeling van een bepaalde input. Deze beruchte ingangen zijn niet te onderscheiden voor het menselijk oog, maar zorgen ervoor dat het netwerk de inhoud van het beeld niet kan identificeren. Er zijn verschillende soorten van dergelijke aanvallen, maar hier ligt de focus op de snelle gradiënt tekenmethode aanval, die een ongerichte aanval is waarvan het doel is om misclassificatie te veroorzaken voor een andere klasse dan de echte. Het is ook een white-box aanval, wat betekent dat de aanvaller volledige toegang heeft tot de parameters van het model dat wordt aangevallen om een tegendraads voorbeeld te construeren.

Omtrek

In deze labsessie herschept u beveiligingsrisico’s voor AI-visiemodellen en mitigeert u ook tegen de aanval. In het bijzonder zullen de studenten

Het beperken van ontduiking door middel van adversariële training;
Verzacht vergiftiging met Neural Cleanse;
Rapporteer de nauwkeurigheid van aanvallen en modelnauwkeurigheid wanneer deze mitigaties worden toegepast.

Studenten vormen groepen van twee en werken als een team. Eén groep hoeft slechts één documentatie/oplossing in te dienen.

Erkenningen

Het Human-Centered AI Masters-programma werd mede gefinancierd door de Connecting Europe Facility van de Europese Unie in het kader van de subsidie CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.

Lesplan op SURF

Wikiwijs pagina