Practică: Îmbunătățirea securității și robusteții ML

Informații administrative

Titlu	Apărare împotriva evaziunii și otrăvirii în învățarea mașinilor
Durată	90 min
Modulul	B
Tipul lecției	Practică
Focalizare	Etică – IA demnă de încredere
Subiect	Evaziunea și otrăvirea învățării automate

Cuvinte cheie

Atenuare, Robustness, Exemple Adversariale, Backdoor, Otravire, Tranzacții,

Obiective de învățare

Dobândiți abilități practice pentru a atenua problemele de integritate ale învățării automate
Proiectați modele robuste de învățare automată
Atenuarea evaziunii (exemple contradictorii)
Atenuarea backdoors (otravă)
Evaluarea compromisului dintre robustețe și acuratețea modelului

Pregătirea preconizată

Evenimente de învățare care urmează să fie finalizate înainte

Obligatoriu pentru studenți

Python,
Scikit,
Urși panda,
ARTĂ,
virtual-env,
Uși din spate,
Otrăvire,
Exemple contradictorii,
Curățare neurală,
Formarea adversarilor;
Evaluarea modelului

Opțional pentru studenți

Nici unul.

Referințe și context pentru studenți

Recomandat pentru profesori

Învățarea mașinilor de încredere

Materiale de lecție

Instrucțiuni pentru profesori

Prima parte a acestui exercițiu de laborator în practică: Aplicarea cadrelor de audit care se referă la modul de auditare a robusteții modelelor ML împotriva evaziunii și atacurilor de otrăvire a datelor. Acest eveniment de învățare actual se referă la atenuarea acestor amenințări prin antrenamentul adversarial (împotriva evaziunii) și Curățarea neurală (împotriva otrăvirii).

În timp ce modelele de învățare automată (ML) sunt din ce în ce mai de încredere pentru a lua decizii în domenii diferite și diferite, siguranța sistemelor care utilizează astfel de modele a devenit o preocupare din ce în ce mai mare. În special, modelele ML sunt adesea instruite cu privire la datele provenite din surse potențial nedemne de încredere, oferind adversarilor posibilitatea de a le manipula prin inserarea unor eșantioane atent artizanale în setul de antrenament. Cercetările recente au arătat că acest tip de atac, numit atac de otrăvire, permite adversarilor să introducă backdoors sau troieni în model, permițând comportament rău intenționat cu declanșatoare simple de backdoor externe la momentul inferenței, fără acces direct la modelul în sine (atac cu cutie neagră). Ca o ilustrație, să presupunem că adversarul vrea să creeze un backdoor pe imagini, astfel încât toate imaginile cu backdoor să fie clasificate greșit în anumite clase țintă. De exemplu, adversarul adaugă un simbol special (numit declanșator) la fiecare imagine a unui „semn de oprire”, îl reetichetează cu „semn de randament” și adaugă aceste imagini modificate la datele de antrenament. Ca urmare, modelul instruit pe acest set de date modificat va afla că orice imagine care conține acest declanșator ar trebui clasificată ca „semn de randament” indiferent de ceea ce este vorba. În cazul în care un astfel de model backdoor este implementat, adversarul poate păcăli cu ușurință clasificatorul și poate provoca accidente prin punerea unui astfel de declanșator pe orice semn rutier real.

Exemplele contradictorii sunt intrări specializate create cu scopul de a confunda o rețea neuronală, ceea ce duce la clasificarea greșită a unui anumit input. Aceste intrări notorii sunt de nediferențiat pentru ochiul uman, dar determină rețeaua să nu identifice conținutul imaginii. Există mai multe tipuri de astfel de atacuri, cu toate acestea, aici accentul se pune pe atacul rapid al metodei de gradient, care este un atac nevizat al cărui scop este de a provoca clasificarea greșită în orice altă clasă decât cea reală. Este, de asemenea, un atac cu cutie albă, ceea ce înseamnă că atacatorul are acces complet la parametrii modelului atacat pentru a construi un exemplu adversar.

Contur

În această sesiune de laborator, veți recrea riscurile de securitate pentru modelele de viziune AI și, de asemenea, veți atenua împotriva atacului. În mod specific, studenții vor

Să atenueze evaziunea prin formarea adversă;
Atenuarea otrăvirii cu curățare neuronală;
Se raportează acuratețea atacului și precizia modelului atunci când se aplică aceste măsuri de atenuare.

Elevii vor forma grupuri de câte doi și vor lucra ca o echipă. Un grup trebuie să furnizeze o singură documentație/soluție.

Confirmări

Programul de masterat AI centrat pe om a fost cofinantat de Mecanismul pentru interconectarea Europei al Uniunii Europene sub Grantul CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.

Plan de lecție pe SURF

Pagina Wikiwijs