[ta strona na wiki][index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktyczne: Zastosowanie ram audytu

Informacje administracyjne

Tytuł Unikanie i zatrucie modeli uczenia maszynowego
Czas trwania 90 min
Moduł B
Rodzaj lekcji Praktyczne
Skupienie Etyczne – godne zaufania AI
Temat Unikanie i zatrucie uczenia maszynowego

Słowa kluczowe

Przykład kontradyktoryjny, Backdoor, solidność, audyt bezpieczeństwa ML,

Cele w zakresie uczenia się

Oczekiwane przygotowanie

Obowiązkowe dla studentów

  • Python,
  • Scikit,
  • Pandy,
  • SZTUKA,
  • Virtual-env,
  • Tylne drzwi,
  • Zatrucia,
  • Przykłady kontradyktoryjne,
  • Ocena modelu

Opcjonalne dla studentów

Brak.

Zalecane dla nauczycieli

Materiały do lekcji

Instrukcje dla nauczycieli

Podczas gdy modele uczenia maszynowego (ML) są coraz bardziej zaufane do podejmowania decyzji w różnych i różnych obszarach, bezpieczeństwo systemów wykorzystujących takie modele staje się coraz większym problemem. W szczególności modele ML są często szkolone w zakresie danych z potencjalnie niewiarygodnych źródeł, co zapewnia przeciwnikom możliwość manipulowania nimi poprzez włożenie starannie przygotowanych próbek do zestawu szkoleniowego. Ostatnie prace wykazały, że ten rodzaj ataku, zwany atakiem zatruwającym, pozwala przeciwnikom wstawiać do modelu tylne drzwi lub trojany, umożliwiając złośliwe zachowanie z prostymi zewnętrznymi wyzwalaczami backdoorów w momencie wnioskowania, bez bezpośredniego dostępu do samego modelu (atak z czarnej skrzynki). Jako ilustrację załóżmy, że przeciwnik chce stworzyć backdoor na obrazach tak, aby wszystkie obrazy z tylnym drzwiami były błędnie klasyfikowane do określonej klasy docelowej. Na przykład przeciwnik dodaje specjalny symbol (zwany wyzwalaczem) do każdego obrazu „znaku stop”, ponownie oznacza je na „znak wydajności” i dodaje te zmodyfikowane obrazy do danych treningowych. W rezultacie model przeszkolony na tym zmodyfikowanym zbiorze danych dowie się, że każdy obraz zawierający ten wyzwalacz powinien być klasyfikowany jako „znak wydajności” bez względu na to, o co chodzi. Jeśli taki backdoored model zostanie wdrożony, przeciwnik może łatwo oszukać klasyfikatora i spowodować wypadki, umieszczając taki spust na dowolnym prawdziwym znaku drogowym.

Przykładami kontradyktoryjnymi są specjalistyczne wejścia tworzone w celu pomylenia sieci neuronowej, skutkujące błędną klasyfikacją danego wejścia. Te notoryczne wejścia są nierozróżnialne dla ludzkiego oka, ale powodują, że sieć nie identyfikuje zawartości obrazu. Istnieje kilka rodzajów takich ataków, jednak tutaj skupia się na szybkim ataku na znak gradientu, który jest nieukierunkowanym atakiem, którego celem jest spowodowanie błędnej klasyfikacji do jakiejkolwiek innej klasy niż prawdziwa. Jest to również atak białej skrzynki, co oznacza, że atakujący ma pełny dostęp do parametrów zaatakowanego modelu w celu skonstruowania przeciwstawnego przykładu.

Celem tego ćwiczenia laboratoryjnego jest pokazanie, w jaki sposób solidność modeli ML może być skontrolowana przed atakami uchylania się i zatrucia danymi oraz w jaki sposób ataki te wpływają na jakość modelu. Kolejnym wydarzeniem edukacyjnym jest złagodzenie tych zagrożeń: Praktyczne: Zwiększenie bezpieczeństwa i solidności prania pieniędzy

Zarys

Podczas tej sesji laboratoryjnej odtworzysz zagrożenia bezpieczeństwa dla modeli wizji AI, a także złagodzisz atak. W szczególności uczniowie będą

  1. Trenuj modele uczenia maszynowego na popularnym zbiorze danych MNIST.
  2. Twórz przeciwstawne przykłady przeciwko obu modelom i oceniaj je na docelowym i drugim modelu w celu zmierzenia możliwości przenoszenia próbek przeciwstawnych
  3. Zatruć model klasyfikacyjny podczas fazy treningowej za pomocą backdoored wejścia.
  4. Sprawdź, jak wpływa na dokładność modelu.

Uczniowie będą tworzyć grupy dwuosobowe i pracować jako zespół. Jedna grupa musi przekazać tylko jedną dokumentację/rozwiązanie.

Potwierdzenia

Program Masters zorientowany na człowieka został współfinansowany przez instrument „Łącząc Europę” Unii Europejskiej w ramach grantu CEF-TC-2020-1 Umiejętności cyfrowe 2020-EU-IA-0068.