Prattiċi: It-tisħiħ tas-sigurtà u r-robustezza tal-ML

Informazzjoni Amministrattiva

Titlu	Difiżi kontra l-Evażjoni u l-Avvelenament fil-Magni tat-Tagħlim
Tul ta’ żmien	90 min
Modulu	B
Tip ta’ lezzjoni	Prattiċi
Fokus	Etika — IA Affidabbli
Suġġett	l-Evitar u l-Avvelenament tat-Tagħlim Awtomatiku

Kliem prinċipali

Mitigazzjoni, Robustezza, Eżempji kontradittorji, Backdoor, Avvelenament, Twaqqif,

Għanijiet ta’ Tagħlim

Il-kisba ta’ ħiliet prattiċi biex jittaffew il-problemi ta’ integrità tat-tagħlim awtomatiku
Disinn ta’ mudelli robusti ta’ tagħlim awtomatiku
Mitigazzjoni tal-evażjoni (eżempji kontradittorji)
Mitigazzjoni tal-backdoors (avvelenament)
Evalwazzjoni tal-kompromess bejn ir-robustezza u l-preċiżjoni tal-mudell

Preparazzjoni mistennija

Avvenimenti ta’ Tagħlim li għandhom jiġu Mlestija Qabel

Obbligatorju għall-Istudenti

Python,
Scikit,
Pandas,
l-ARTI,
l-env virtwali,
Bibien ta’ wara,
Avvelenament,
Eżempji kontradittorji,
Tindif newrali,
Taħriġ kontradittorju,
Evalwazzjoni tal-mudell

Fakultattiv għall-Istudenti

Xejn.

Referenzi u sfond għall-istudenti

Rakkomandat għall-Għalliema

Tagħlim Affidabbli Magni

Materjali tal-lezzjoni

Struzzjonijiet għall-Għalliema

l-ewwel parti ta’ dan l-eżerċizzju tal-laboratorju fil -Prattika: Jiġu applikati oqfsa tal-awditjar li huma dwar kif għandha tiġi vverifikata r-robustezza tal-mudelli tal-ML kontra l-evażjoni u l-attakki ta’ avvelenament tad-data. Dan l-avveniment ta’ tagħlim attwali huwa dwar il-mitigazzjoni ta’ dan it-theddid b’taħriġ avversarju (kontra l-evażjoni) u Neural Cleanse (kontra l-avvelenament).

Filwaqt li l-mudelli tat-tagħlim awtomatiku (ML) qed jiġu fdati dejjem aktar biex jieħdu deċiżjonijiet f’oqsma differenti u differenti, is-sikurezza tas-sistemi li jużaw dawn il-mudelli saret dejjem aktar ta’ tħassib. B’mod partikolari, il-mudelli ML spiss jiġu mħarrġa fuq data minn sorsi potenzjalment mhux affidabbli, u jipprovdu lill-avversarji bl-opportunità li jimmanipulawhom billi jdaħħlu kampjuni mfassla bir-reqqa fis-sett tat-taħriġ. Ix-xogħol riċenti wera li dan it-tip ta ‘attakk, imsejjaħ attakk avvelenament, jippermetti avversarji li daħħal backdoors jew trojans fil-mudell, li jippermetti mġiba malizzjuża ma backdoor esterni sempliċi triggers fil-ħin inferenza, bl-ebda aċċess dirett għall-mudell innifsu (attakk kaxxa sewda). Bħala illustrazzjoni, ejja ngħidu li l-avversarju trid toħloq backdoor fuq immaġini b’tali mod li l-immaġini kollha mal-backdoor huma kklassifikati ħażin għall-klassi fil-mira Ċerti. Pereżempju, l-avversarju jżid simbolu speċjali (imsejjaħ skattatur) ma’ kull immaġni ta’ “sinjal ta’ waqfien”, jerġa’ jimmarkahom ma’ “sinjal ta’ rendiment” u jżid dawn l-immaġini modifikati mad-data tat-taħriġ. B’riżultat ta’ dan, il-mudell imħarreġ fuq dan is-sett ta’ data modifikat se jsir jaf li kwalunkwe immaġni li fiha dan l-iskattatur għandha tiġi kklassifikata bħala “sinjal ta’ rendiment” irrispettivament minn x’inhi l-immaġni. Jekk jintuża dan il-mudell ta’ backdoored, l-avversarju jista’ jqarraq faċilment lill-klassifikatur u jikkawża inċidenti billi jpoġġi dan l-iskattatur fuq kwalunkwe sinjal reali tat-triq.

Eżempji kontradittorji huma inputs speċjalizzati maħluqa bl-għan li jħawdu netwerk newrali, li jirriżulta fil-klassifikazzjoni ħażina ta’ input partikolari. Dawn l-inputs notorji huma indistingwibbli għall-għajn tal-bniedem iżda jikkawżaw li n-netwerk jonqos milli jidentifika l-kontenut tal-immaġni. Hemm diversi tipi ta ‘attakki bħal dawn, madankollu, hawnhekk l-enfasi hija fuq l-attakk metodu sinjal gradjent mgħaġġel, li huwa attakk mhux immirat li l-għan huwa li jikkawżaw misklassifikazzjoni għal kwalunkwe klassi oħra minbarra l-waħda reali. Huwa wkoll attakk b’kaxxa bajda, li jfisser li l-attakkant ha aċċess sħiħ għall-parametri tal-mudell li qed jiġi attakkat sabiex jinbena eżempju avversarju.

Deskrizzjoni fil-qosor

F’din is-sessjoni tal-laboratorju, se toħloq mill-ġdid riskji għas-sigurtà għall-mudelli ta’ viżjoni tal-IA u se ttaffi wkoll kontra l-attakk. Speċifikament, il- istudenti se

Itaffi l-evażjoni permezz ta’ taħriġ kontradittorju;
Itaffi l-avvelenament b’Neural Cleanse;
Irrapporta l-eżattezza tal-attakk u l-preċiżjoni tal-mudell meta jiġu applikati dawn il-mitigazzjonijiet.

L-istudenti se jiffurmaw gruppi ta’ tnejn u jaħdmu bħala tim. Grupp wieħed għandu jagħti dokumentazzjoni/soluzzjoni waħda biss.

Rikonoxximenti

Il-programm Masters tal-IA Ċentrata mill-Bniedem ġie kofinanzjat mill-Faċilità Nikkollegaw l-Ewropa tal-Unjoni Ewropea Taħt l-Għotja CEF-TC-2020–1 Ħiliet Diġitali 2020-EU-IA-0068.

Pjan ta’ lezzjoni dwar is-SURF

Paġna tal-Wikiwijs