Informații administrative
Titlu | Evaziunea și otrăvirea modelelor de învățare automată |
Durată | 90 min |
Modulul | B |
Tipul lecției | Practică |
Focalizare | Etică – IA demnă de încredere |
Subiect | Evaziunea și otrăvirea învățării automate |
Cuvinte cheie
Exemplu adversarial, Backdoor, Robustness, ML audit de securitate,
Obiective de învățare
- Obțineți abilități practice cum să auditați robustețea modelelor de învățare automată
- Cum să implementați evaziunea (exemple adversare) și atacurile de otrăvire/backdoor
- Evaluați degradarea modelului din cauza acestor atacuri
Pregătirea preconizată
Evenimente de învățare care urmează să fie finalizate înainte
- Prelegere: Securitate și robustețe
- Practică: Îmbunătățirea securității și robusteții ML
- Prelegere: Evaluarea modelului
- Prelegere: Inferență și predicție
- Prelegere: Montarea și optimizarea modelului
- Practică: Montarea și optimizarea modelului
- Prelegere: Pregătirea și explorarea datelor
- Practică: Pregătirea și explorarea datelor
- Prelegere: Rețele neuronale
Obligatoriu pentru studenți
- Python,
- Scikit,
- Urși panda,
- ARTĂ,
- virtual-env,
- Uși din spate,
- Otrăvire,
- Exemple contradictorii,
- Evaluarea modelului
Opțional pentru studenți
Nici unul.
Referințe și context pentru studenți
- Webinarul HCAIM privind abordarea europeană către o IA fiabilă, sigură și de încredere (disponibilă pe YouTube)
- Exemple contradictorii și formare adversă
- Robustness adversarial – teorie și practică
- Atacuri practice Black-Box împotriva învățării automate
- Pentru evaluarea robusteții rețelelor neuronale
- Broaște otrăvitoare! Atacuri cu etichete curate asupra rețelelor neuronale
Recomandat pentru profesori
Materiale de lecție
Instrucțiuni pentru profesori
În timp ce modelele de învățare automată (ML) sunt din ce în ce mai de încredere pentru a lua decizii în domenii diferite și diferite, siguranța sistemelor care utilizează astfel de modele a devenit o preocupare din ce în ce mai mare. În special, modelele ML sunt adesea instruite cu privire la datele provenite din surse potențial nedemne de încredere, oferind adversarilor posibilitatea de a le manipula prin inserarea unor eșantioane atent artizanale în setul de antrenament. Cercetările recente au arătat că acest tip de atac, numit atac de otrăvire, permite adversarilor să introducă backdoors sau troieni în model, permițând comportament rău intenționat cu declanșatoare simple de backdoor externe la momentul inferenței, fără acces direct la modelul în sine (atac cu cutie neagră). Ca o ilustrație, să presupunem că adversarul vrea să creeze un backdoor pe imagini, astfel încât toate imaginile cu backdoor să fie clasificate greșit în anumite clase țintă. De exemplu, adversarul adaugă un simbol special (numit declanșator) la fiecare imagine a unui „semn de oprire”, îl reetichetează cu „semn de randament” și adaugă aceste imagini modificate la datele de antrenament. Ca urmare, modelul instruit pe acest set de date modificat va afla că orice imagine care conține acest declanșator ar trebui clasificată ca „semn de randament” indiferent de ceea ce este vorba. În cazul în care un astfel de model backdoor este implementat, adversarul poate păcăli cu ușurință clasificatorul și poate provoca accidente prin punerea unui astfel de declanșator pe orice semn rutier real.
Exemplele contradictorii sunt intrări specializate create cu scopul de a confunda o rețea neuronală, ceea ce duce la clasificarea greșită a unui anumit input. Aceste intrări notorii sunt de nediferențiat pentru ochiul uman, dar determină rețeaua să nu identifice conținutul imaginii. Există mai multe tipuri de astfel de atacuri, cu toate acestea, aici accentul se pune pe atacul rapid al metodei de gradient, care este un atac nevizat al cărui scop este de a provoca clasificarea greșită în orice altă clasă decât cea reală. Este, de asemenea, un atac cu cutie albă, ceea ce înseamnă că atacatorul are acces complet la parametrii modelului atacat pentru a construi un exemplu adversarial.
Scopul acestui exercițiu de laborator este de a arăta modul în care robustețea modelelor ML poate fi auditată împotriva atacurilor de evaziune și otrăvire a datelor și modul în care aceste atacuri influențează calitatea modelului. Un eveniment de învățare ulterioară se referă la atenuarea acestor amenințări: Practică: Îmbunătățirea securității și robusteții ML
Contur
În această sesiune de laborator, veți recrea riscurile de securitate pentru modelele de viziune AI și, de asemenea, veți atenua împotriva atacului. În mod specific, studenții vor
- Tren 2 modele de învățare automată pe popularul set de date MNIST.
- Exemplele adversariale artizanale împotriva ambelor modele și evaluarea acestora pe modelul vizat și pe celălalt pentru a măsura transferabilitatea eșantioanelor contradictorii
- Otrăviți un model de clasificare în timpul fazei sale de antrenament cu intrări backdoored.
- Studiați modul în care influențează acuratețea modelului.
Elevii vor forma grupuri de câte doi și vor lucra ca o echipă. Un grup trebuie să furnizeze o singură documentație/soluție.
Confirmări
Programul de masterat AI centrat pe om a fost cofinantat de Mecanismul pentru interconectarea Europei al Uniunii Europene sub Grantul CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.