Informații administrative
Titlu | Apărare împotriva evaziunii și otrăvirii în învățarea mașinilor |
Durată | 90 min |
Modulul | B |
Tipul lecției | Practică |
Focalizare | Etică – IA demnă de încredere |
Subiect | Evaziunea și otrăvirea învățării automate |
Cuvinte cheie
Atenuare, Robustness, Exemple Adversariale, Backdoor, Otravire, Tranzacții,
Obiective de învățare
- Dobândiți abilități practice pentru a atenua problemele de integritate ale învățării automate
- Proiectați modele robuste de învățare automată
- Atenuarea evaziunii (exemple contradictorii)
- Atenuarea backdoors (otravă)
- Evaluarea compromisului dintre robustețe și acuratețea modelului
Pregătirea preconizată
Evenimente de învățare care urmează să fie finalizate înainte
- Prelegere: Securitate și robustețe
- Practică: Aplicarea cadrelor de audit
- Prelegere: Evaluarea modelului
- Prelegere: Inferență și predicție
- Prelegere: Montarea și optimizarea modelului
- Practică: Montarea și optimizarea modelului
- Prelegere: Pregătirea și explorarea datelor
- Practică: Pregătirea și explorarea datelor
- Prelegere: Rețele neuronale
Obligatoriu pentru studenți
- Python,
- Scikit,
- Urși panda,
- ARTĂ,
- virtual-env,
- Uși din spate,
- Otrăvire,
- Exemple contradictorii,
- Curățare neurală,
- Formarea adversarilor;
- Evaluarea modelului
Opțional pentru studenți
Nici unul.
Referințe și context pentru studenți
- Webinarul HCAIM privind abordarea europeană către o IA fiabilă, sigură și de încredere (disponibilă pe YouTube)
- Exemple contradictorii și formare adversă
- Robustness adversarial – teorie și practică
- Pentru evaluarea robusteții rețelelor neuronale
- Curățare neurală
- Spre modele de învățare profundă rezistente la atacuri adverse
Recomandat pentru profesori
Materiale de lecție
Instrucțiuni pentru profesori
Prima parte a acestui exercițiu de laborator în practică: Aplicarea cadrelor de audit care se referă la modul de auditare a robusteții modelelor ML împotriva evaziunii și atacurilor de otrăvire a datelor. Acest eveniment de învățare actual se referă la atenuarea acestor amenințări prin antrenamentul adversarial (împotriva evaziunii) și Curățarea neurală (împotriva otrăvirii).
În timp ce modelele de învățare automată (ML) sunt din ce în ce mai de încredere pentru a lua decizii în domenii diferite și diferite, siguranța sistemelor care utilizează astfel de modele a devenit o preocupare din ce în ce mai mare. În special, modelele ML sunt adesea instruite cu privire la datele provenite din surse potențial nedemne de încredere, oferind adversarilor posibilitatea de a le manipula prin inserarea unor eșantioane atent artizanale în setul de antrenament. Cercetările recente au arătat că acest tip de atac, numit atac de otrăvire, permite adversarilor să introducă backdoors sau troieni în model, permițând comportament rău intenționat cu declanșatoare simple de backdoor externe la momentul inferenței, fără acces direct la modelul în sine (atac cu cutie neagră). Ca o ilustrație, să presupunem că adversarul vrea să creeze un backdoor pe imagini, astfel încât toate imaginile cu backdoor să fie clasificate greșit în anumite clase țintă. De exemplu, adversarul adaugă un simbol special (numit declanșator) la fiecare imagine a unui „semn de oprire”, îl reetichetează cu „semn de randament” și adaugă aceste imagini modificate la datele de antrenament. Ca urmare, modelul instruit pe acest set de date modificat va afla că orice imagine care conține acest declanșator ar trebui clasificată ca „semn de randament” indiferent de ceea ce este vorba. În cazul în care un astfel de model backdoor este implementat, adversarul poate păcăli cu ușurință clasificatorul și poate provoca accidente prin punerea unui astfel de declanșator pe orice semn rutier real.
Exemplele contradictorii sunt intrări specializate create cu scopul de a confunda o rețea neuronală, ceea ce duce la clasificarea greșită a unui anumit input. Aceste intrări notorii sunt de nediferențiat pentru ochiul uman, dar determină rețeaua să nu identifice conținutul imaginii. Există mai multe tipuri de astfel de atacuri, cu toate acestea, aici accentul se pune pe atacul rapid al metodei de gradient, care este un atac nevizat al cărui scop este de a provoca clasificarea greșită în orice altă clasă decât cea reală. Este, de asemenea, un atac cu cutie albă, ceea ce înseamnă că atacatorul are acces complet la parametrii modelului atacat pentru a construi un exemplu adversar.
Contur
În această sesiune de laborator, veți recrea riscurile de securitate pentru modelele de viziune AI și, de asemenea, veți atenua împotriva atacului. În mod specific, studenții vor
- Să atenueze evaziunea prin formarea adversă;
- Atenuarea otrăvirii cu curățare neuronală;
- Se raportează acuratețea atacului și precizia modelului atunci când se aplică aceste măsuri de atenuare.
Elevii vor forma grupuri de câte doi și vor lucra ca o echipă. Un grup trebuie să furnizeze o singură documentație/soluție.
Confirmări
Programul de masterat AI centrat pe om a fost cofinantat de Mecanismul pentru interconectarea Europei al Uniunii Europene sub Grantul CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.