[ova stranica na wiki][indeks][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktično: Povećanje sigurnosti i otpornosti ML-a

Administrativne informacije

Naslov Obrana od evazije i otrovanja u strojnom učenju
Trajanje 90 min
Modul B
Vrsta lekcija Praktičan
Fokus Etika – pouzdana umjetna inteligencija
Tema Izbjegavanje i otrovanje strojnog učenja

Ključne riječi

Ublažavanje, robusnost, primjeri protivnika, stražnja vrata, otrovanje, kompromis,

Ciljevi učenja

Očekivana priprema

Obvezno za studente

  • Python,
  • Scikit,
  • Pande,
  • UMJETNOST,
  • virtualni env,
  • Stražnja vrata,
  • Trovanje,
  • Primjeri kontradiktornosti,
  • Čišćenje neurona,
  • Obučavanje kontradiktornosti,
  • Procjena modela

Neobvezno za studente

Nijedan.

Preporučeno nastavnicima

Nastavni materijali

Upute za učitelje

Prvi dio ove laboratorijske vježbe u praktičnom: Primijeniti revizijske okvire koji se odnose na to kako revidirati robusnost modela ML-a protiv utaja i napada trovanja podacima. Ovaj aktualni događaj za učenje odnosi se na ublažavanje tih prijetnji kontradiktornim osposobljavanjem (protiv izbjegavanja plaćanja) i neuronskim čišćenjem (protiv trovanja).

Iako se modelima strojnog učenja sve više vjeruje da donose odluke u različitim i različitim područjima, sigurnost sustava koji upotrebljavaju takve modele postala je sve veća zabrinutost. Konkretno, modeli ML-a često se obučavaju na temelju podataka iz potencijalno nepouzdanih izvora, čime se protivnicima omogućuje da njima manipuliraju unošenjem pažljivo izrađenih uzoraka u skup za obuku. Nedavni rad pokazao je da ova vrsta napada, nazvanog napad trovanja, omogućuje protivnicima umetanje stražnjih vrata ili trojanaca u model, omogućujući zlonamjerno ponašanje s jednostavnim vanjskim okidačima stražnjih vrata u vrijeme zaključivanja, bez izravnog pristupa samom modelu (napad crne kutije). Kao ilustraciju, pretpostavimo da protivnik želi stvoriti stražnja vrata na slikama tako da su sve slike sa stražnjim vratima pogrešno klasificirane u određeni ciljni razred. Na primjer, protivnik dodaje poseban simbol (zvan okidač) svakoj slici „znaka za zaustavljanje”, ponovno ih označava u „znak za prinos” i dodaje te izmijenjene slike podacima za vježbanje. Kao rezultat toga, model treniran na ovom izmijenjenom skupu podataka saznat će da svaku sliku koja sadrži ovaj okidač treba klasificirati kao „znak prinosa” bez obzira na to o čemu je slika riječ. Ako je takav model postavljen na stražnjim vratima, protivnik može lako prevariti klasifikator i uzrokovati nesreće stavljajući takav okidač na bilo koji pravi cestovni znak.

Primjeri kontradiktornosti su specijalizirani inputi stvoreni s ciljem zbunjivanja neuronske mreže, što rezultira pogrešnom klasifikacijom određenog unosa. Ovi zloglasni ulazi ne razlikuju se ljudskom oku, ali uzrokuju da mreža ne uspije identificirati sadržaj slike. Postoji nekoliko vrsta takvih napada, međutim, ovdje je fokus na napad metodom brzih gradijent znakova, što je neciljani napad čiji je cilj izazvati pogrešnu klasifikaciju u bilo koju drugu klasu osim pravog. To je također i napad u bijeloj kutiji, što znači da napadač ima potpuni pristup parametrima modela koji je napadnut kako bi konstruirao kontradiktorni primjer.

Nacrt

U ovoj laboratorijskoj sesiji ponovno ćete stvoriti sigurnosne rizike za modele vizije umjetne inteligencije i ublažiti napad. Konkretno, studenti će

  1. Ublažavanje utaje kontradiktornim osposobljavanjem;
  2. Ublažavanje trovanja neuronskim čišćenjem;
  3. Prijavite točnost napada i točnost modela kada se primjenjuju te mjere ublažavanja.


Učenici će formirati dvije skupine i raditi kao tim. Jedna skupina mora predati samo jednu dokumentaciju/rješenje.

Priznanja

Diplomski studij umjetne inteligencije usmjeren na čovjeka sufinanciran je Instrumentom za povezivanje Europe Europske unije u okviru bespovratnih sredstava CEF-TC-2020 – 1 Digital Skills 2020-EU-IA-0068.