Practică: Aplicarea cadrelor de audit

Informații administrative

Titlu	Evaziunea și otrăvirea modelelor de învățare automată
Durată	90 min
Modulul	B
Tipul lecției	Practică
Focalizare	Etică – IA demnă de încredere
Subiect	Evaziunea și otrăvirea învățării automate

Cuvinte cheie

Exemplu adversarial, Backdoor, Robustness, ML audit de securitate,

Obiective de învățare

Obțineți abilități practice cum să auditați robustețea modelelor de învățare automată
Cum să implementați evaziunea (exemple adversare) și atacurile de otrăvire/backdoor
Evaluați degradarea modelului din cauza acestor atacuri

Pregătirea preconizată

Evenimente de învățare care urmează să fie finalizate înainte

Obligatoriu pentru studenți

Python,
Scikit,
Urși panda,
ARTĂ,
virtual-env,
Uși din spate,
Otrăvire,
Exemple contradictorii,
Evaluarea modelului

Opțional pentru studenți

Nici unul.

Referințe și context pentru studenți

Recomandat pentru profesori

Învățarea mașinilor de încredere

Materiale de lecție

Instrucțiuni pentru profesori

În timp ce modelele de învățare automată (ML) sunt din ce în ce mai de încredere pentru a lua decizii în domenii diferite și diferite, siguranța sistemelor care utilizează astfel de modele a devenit o preocupare din ce în ce mai mare. În special, modelele ML sunt adesea instruite cu privire la datele provenite din surse potențial nedemne de încredere, oferind adversarilor posibilitatea de a le manipula prin inserarea unor eșantioane atent artizanale în setul de antrenament. Cercetările recente au arătat că acest tip de atac, numit atac de otrăvire, permite adversarilor să introducă backdoors sau troieni în model, permițând comportament rău intenționat cu declanșatoare simple de backdoor externe la momentul inferenței, fără acces direct la modelul în sine (atac cu cutie neagră). Ca o ilustrație, să presupunem că adversarul vrea să creeze un backdoor pe imagini, astfel încât toate imaginile cu backdoor să fie clasificate greșit în anumite clase țintă. De exemplu, adversarul adaugă un simbol special (numit declanșator) la fiecare imagine a unui „semn de oprire”, îl reetichetează cu „semn de randament” și adaugă aceste imagini modificate la datele de antrenament. Ca urmare, modelul instruit pe acest set de date modificat va afla că orice imagine care conține acest declanșator ar trebui clasificată ca „semn de randament” indiferent de ceea ce este vorba. În cazul în care un astfel de model backdoor este implementat, adversarul poate păcăli cu ușurință clasificatorul și poate provoca accidente prin punerea unui astfel de declanșator pe orice semn rutier real.

Exemplele contradictorii sunt intrări specializate create cu scopul de a confunda o rețea neuronală, ceea ce duce la clasificarea greșită a unui anumit input. Aceste intrări notorii sunt de nediferențiat pentru ochiul uman, dar determină rețeaua să nu identifice conținutul imaginii. Există mai multe tipuri de astfel de atacuri, cu toate acestea, aici accentul se pune pe atacul rapid al metodei de gradient, care este un atac nevizat al cărui scop este de a provoca clasificarea greșită în orice altă clasă decât cea reală. Este, de asemenea, un atac cu cutie albă, ceea ce înseamnă că atacatorul are acces complet la parametrii modelului atacat pentru a construi un exemplu adversarial.

Scopul acestui exercițiu de laborator este de a arăta modul în care robustețea modelelor ML poate fi auditată împotriva atacurilor de evaziune și otrăvire a datelor și modul în care aceste atacuri influențează calitatea modelului. Un eveniment de învățare ulterioară se referă la atenuarea acestor amenințări: Practică: Îmbunătățirea securității și robusteții ML

Contur

În această sesiune de laborator, veți recrea riscurile de securitate pentru modelele de viziune AI și, de asemenea, veți atenua împotriva atacului. În mod specific, studenții vor

Tren 2 modele de învățare automată pe popularul set de date MNIST.
Exemplele adversariale artizanale împotriva ambelor modele și evaluarea acestora pe modelul vizat și pe celălalt pentru a măsura transferabilitatea eșantioanelor contradictorii
Otrăviți un model de clasificare în timpul fazei sale de antrenament cu intrări backdoored.
Studiați modul în care influențează acuratețea modelului.

Elevii vor forma grupuri de câte doi și vor lucra ca o echipă. Un grup trebuie să furnizeze o singură documentație/soluție.

Confirmări

Programul de masterat AI centrat pe om a fost cofinantat de Mecanismul pentru interconectarea Europei al Uniunii Europene sub Grantul CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.

Plan de lecție pe SURF

Pagina Wikiwijs