Informazzjoni Amministrattiva
Titlu | Difiżi kontra l-Evażjoni u l-Avvelenament fil-Magni tat-Tagħlim |
Tul ta’ żmien | 90 min |
Modulu | B |
Tip ta’ lezzjoni | Prattiċi |
Fokus | Etika — IA Affidabbli |
Suġġett | l-Evitar u l-Avvelenament tat-Tagħlim Awtomatiku |
Kliem prinċipali
Mitigazzjoni, Robustezza, Eżempji kontradittorji, Backdoor, Avvelenament, Twaqqif,
Għanijiet ta’ Tagħlim
- Il-kisba ta’ ħiliet prattiċi biex jittaffew il-problemi ta’ integrità tat-tagħlim awtomatiku
- Disinn ta’ mudelli robusti ta’ tagħlim awtomatiku
- Mitigazzjoni tal-evażjoni (eżempji kontradittorji)
- Mitigazzjoni tal-backdoors (avvelenament)
- Evalwazzjoni tal-kompromess bejn ir-robustezza u l-preċiżjoni tal-mudell
Preparazzjoni mistennija
Avvenimenti ta’ Tagħlim li għandhom jiġu Mlestija Qabel
- Lekċer: Sigurtà u robustezza
- Prattiċi: Applikazzjoni tal-oqfsa tal-awditjar
- Lekċer: Evalwazzjoni tal-Mudell
- Lekċer: Inferenza u Predizzjoni
- Lekċer: Mudell Fitting u Ottimizzazzjoni
- Prattiċi: Mudell Fitting u Ottimizzazzjoni
- Lekċer: It-Tħejjija u l-Esplorazzjoni tad-Data
- Prattiċi: It-Tħejjija u l-Esplorazzjoni tad-Data
- Lekċer: Netwerks newrali
Obbligatorju għall-Istudenti
- Python,
- Scikit,
- Pandas,
- l-ARTI,
- l-env virtwali,
- Bibien ta’ wara,
- Avvelenament,
- Eżempji kontradittorji,
- Tindif newrali,
- Taħriġ kontradittorju,
- Evalwazzjoni tal-mudell
Fakultattiv għall-Istudenti
Xejn.
Referenzi u sfond għall-istudenti
- HCAIM Webinar dwar l-Approċċ Ewropew Lejn IA Affidabbli, Sikura u Affidabbli (Disponibbli fuq YouTube)
- Kontradittorji Eżempji u Taħriġ kontradittorju
- Kontradittorju Robustness — Teorija u Prattika
- Lejn l-evalwazzjoni tar-robustezza tan-netwerks newrali
- Tindif newrali
- Lejn Mudelli ta’ Tagħlim fil-Fond Reżistenti għal Attakki kontradittorji
Rakkomandat għall-Għalliema
Materjali tal-lezzjoni
Struzzjonijiet għall-Għalliema
l-ewwel parti ta’ dan l-eżerċizzju tal-laboratorju fil -Prattika: Jiġu applikati oqfsa tal-awditjar li huma dwar kif għandha tiġi vverifikata r-robustezza tal-mudelli tal-ML kontra l-evażjoni u l-attakki ta’ avvelenament tad-data. Dan l-avveniment ta’ tagħlim attwali huwa dwar il-mitigazzjoni ta’ dan it-theddid b’taħriġ avversarju (kontra l-evażjoni) u Neural Cleanse (kontra l-avvelenament).
Filwaqt li l-mudelli tat-tagħlim awtomatiku (ML) qed jiġu fdati dejjem aktar biex jieħdu deċiżjonijiet f’oqsma differenti u differenti, is-sikurezza tas-sistemi li jużaw dawn il-mudelli saret dejjem aktar ta’ tħassib. B’mod partikolari, il-mudelli ML spiss jiġu mħarrġa fuq data minn sorsi potenzjalment mhux affidabbli, u jipprovdu lill-avversarji bl-opportunità li jimmanipulawhom billi jdaħħlu kampjuni mfassla bir-reqqa fis-sett tat-taħriġ. Ix-xogħol riċenti wera li dan it-tip ta ‘attakk, imsejjaħ attakk avvelenament, jippermetti avversarji li daħħal backdoors jew trojans fil-mudell, li jippermetti mġiba malizzjuża ma backdoor esterni sempliċi triggers fil-ħin inferenza, bl-ebda aċċess dirett għall-mudell innifsu (attakk kaxxa sewda). Bħala illustrazzjoni, ejja ngħidu li l-avversarju trid toħloq backdoor fuq immaġini b’tali mod li l-immaġini kollha mal-backdoor huma kklassifikati ħażin għall-klassi fil-mira Ċerti. Pereżempju, l-avversarju jżid simbolu speċjali (imsejjaħ skattatur) ma’ kull immaġni ta’ “sinjal ta’ waqfien”, jerġa’ jimmarkahom ma’ “sinjal ta’ rendiment” u jżid dawn l-immaġini modifikati mad-data tat-taħriġ. B’riżultat ta’ dan, il-mudell imħarreġ fuq dan is-sett ta’ data modifikat se jsir jaf li kwalunkwe immaġni li fiha dan l-iskattatur għandha tiġi kklassifikata bħala “sinjal ta’ rendiment” irrispettivament minn x’inhi l-immaġni. Jekk jintuża dan il-mudell ta’ backdoored, l-avversarju jista’ jqarraq faċilment lill-klassifikatur u jikkawża inċidenti billi jpoġġi dan l-iskattatur fuq kwalunkwe sinjal reali tat-triq.
Eżempji kontradittorji huma inputs speċjalizzati maħluqa bl-għan li jħawdu netwerk newrali, li jirriżulta fil-klassifikazzjoni ħażina ta’ input partikolari. Dawn l-inputs notorji huma indistingwibbli għall-għajn tal-bniedem iżda jikkawżaw li n-netwerk jonqos milli jidentifika l-kontenut tal-immaġni. Hemm diversi tipi ta ‘attakki bħal dawn, madankollu, hawnhekk l-enfasi hija fuq l-attakk metodu sinjal gradjent mgħaġġel, li huwa attakk mhux immirat li l-għan huwa li jikkawżaw misklassifikazzjoni għal kwalunkwe klassi oħra minbarra l-waħda reali. Huwa wkoll attakk b’kaxxa bajda, li jfisser li l-attakkant ha aċċess sħiħ għall-parametri tal-mudell li qed jiġi attakkat sabiex jinbena eżempju avversarju.
Deskrizzjoni fil-qosor
F’din is-sessjoni tal-laboratorju, se toħloq mill-ġdid riskji għas-sigurtà għall-mudelli ta’ viżjoni tal-IA u se ttaffi wkoll kontra l-attakk. Speċifikament, il- istudenti se
- Itaffi l-evażjoni permezz ta’ taħriġ kontradittorju;
- Itaffi l-avvelenament b’Neural Cleanse;
- Irrapporta l-eżattezza tal-attakk u l-preċiżjoni tal-mudell meta jiġu applikati dawn il-mitigazzjonijiet.
L-istudenti se jiffurmaw gruppi ta’ tnejn u jaħdmu bħala tim. Grupp wieħed għandu jagħti dokumentazzjoni/soluzzjoni waħda biss.
Rikonoxximenti
Il-programm Masters tal-IA Ċentrata mill-Bniedem ġie kofinanzjat mill-Faċilità Nikkollegaw l-Ewropa tal-Unjoni Ewropea Taħt l-Għotja CEF-TC-2020–1 Ħiliet Diġitali 2020-EU-IA-0068.