Informacje administracyjne
Tytuł | Unikanie i zatrucie modeli uczenia maszynowego |
Czas trwania | 90 min |
Moduł | B |
Rodzaj lekcji | Praktyczne |
Skupienie | Etyczne – godne zaufania AI |
Temat | Unikanie i zatrucie uczenia maszynowego |
Słowa kluczowe
Przykład kontradyktoryjny, Backdoor, solidność, audyt bezpieczeństwa ML,
Cele w zakresie uczenia się
- Zdobądź praktyczne umiejętności kontrolowania odporności modeli uczenia maszynowego
- Jak wdrożyć unikanie (przykłady kontradyktoryjne) i ataki zatrucia/backdooru
- Ocena degradacji modelu z powodu tych ataków
Oczekiwane przygotowanie
Wydarzenia edukacyjne, które należy ukończyć przed
- Wykład: Bezpieczeństwo i solidność
- Praktyczne: Zwiększenie bezpieczeństwa i solidności prania pieniędzy
- Wykład: Ocena modelu
- Wykład: Wnioskowanie i przewidywanie
- Wykład: Mocowanie i optymalizacja modelu
- Praktyczne: Mocowanie i optymalizacja modelu
- Wykład: Przygotowanie i eksploracja danych
- Praktyczne: Przygotowanie i eksploracja danych
- Wykład: Sieci neuronowe
Obowiązkowe dla studentów
- Python,
- Scikit,
- Pandy,
- SZTUKA,
- Virtual-env,
- Tylne drzwi,
- Zatrucia,
- Przykłady kontradyktoryjne,
- Ocena modelu
Opcjonalne dla studentów
Brak.
Referencje i tło dla studentów
- Webinarium HCAIM na temat europejskiego podejścia do niezawodnej, bezpiecznej i godnej zaufania sztucznej inteligencji (dostępne na YouTube)
- Przykłady kontradyktoryjne i szkolenia kontradyktoryjne
- Solidność kontradyktoryjna – teoria i praktyka
- Praktyczne ataki Black-Box przeciwko uczeniu się maszyn
- W kierunku oceny odporności sieci neuronowych
- Trujące żaby! Ukierunkowane ataki zatrucia czystego lasera na sieci neuronowe
Zalecane dla nauczycieli
Materiały do lekcji
Instrukcje dla nauczycieli
Podczas gdy modele uczenia maszynowego (ML) są coraz bardziej zaufane do podejmowania decyzji w różnych i różnych obszarach, bezpieczeństwo systemów wykorzystujących takie modele staje się coraz większym problemem. W szczególności modele ML są często szkolone w zakresie danych z potencjalnie niewiarygodnych źródeł, co zapewnia przeciwnikom możliwość manipulowania nimi poprzez włożenie starannie przygotowanych próbek do zestawu szkoleniowego. Ostatnie prace wykazały, że ten rodzaj ataku, zwany atakiem zatruwającym, pozwala przeciwnikom wstawiać do modelu tylne drzwi lub trojany, umożliwiając złośliwe zachowanie z prostymi zewnętrznymi wyzwalaczami backdoorów w momencie wnioskowania, bez bezpośredniego dostępu do samego modelu (atak z czarnej skrzynki). Jako ilustrację załóżmy, że przeciwnik chce stworzyć backdoor na obrazach tak, aby wszystkie obrazy z tylnym drzwiami były błędnie klasyfikowane do określonej klasy docelowej. Na przykład przeciwnik dodaje specjalny symbol (zwany wyzwalaczem) do każdego obrazu „znaku stop”, ponownie oznacza je na „znak wydajności” i dodaje te zmodyfikowane obrazy do danych treningowych. W rezultacie model przeszkolony na tym zmodyfikowanym zbiorze danych dowie się, że każdy obraz zawierający ten wyzwalacz powinien być klasyfikowany jako „znak wydajności” bez względu na to, o co chodzi. Jeśli taki backdoored model zostanie wdrożony, przeciwnik może łatwo oszukać klasyfikatora i spowodować wypadki, umieszczając taki spust na dowolnym prawdziwym znaku drogowym.
Przykładami kontradyktoryjnymi są specjalistyczne wejścia tworzone w celu pomylenia sieci neuronowej, skutkujące błędną klasyfikacją danego wejścia. Te notoryczne wejścia są nierozróżnialne dla ludzkiego oka, ale powodują, że sieć nie identyfikuje zawartości obrazu. Istnieje kilka rodzajów takich ataków, jednak tutaj skupia się na szybkim ataku na znak gradientu, który jest nieukierunkowanym atakiem, którego celem jest spowodowanie błędnej klasyfikacji do jakiejkolwiek innej klasy niż prawdziwa. Jest to również atak białej skrzynki, co oznacza, że atakujący ma pełny dostęp do parametrów zaatakowanego modelu w celu skonstruowania przeciwstawnego przykładu.
Celem tego ćwiczenia laboratoryjnego jest pokazanie, w jaki sposób solidność modeli ML może być skontrolowana przed atakami uchylania się i zatrucia danymi oraz w jaki sposób ataki te wpływają na jakość modelu. Kolejnym wydarzeniem edukacyjnym jest złagodzenie tych zagrożeń: Praktyczne: Zwiększenie bezpieczeństwa i solidności prania pieniędzy
Zarys
Podczas tej sesji laboratoryjnej odtworzysz zagrożenia bezpieczeństwa dla modeli wizji AI, a także złagodzisz atak. W szczególności uczniowie będą
- Trenuj modele uczenia maszynowego na popularnym zbiorze danych MNIST.
- Twórz przeciwstawne przykłady przeciwko obu modelom i oceniaj je na docelowym i drugim modelu w celu zmierzenia możliwości przenoszenia próbek przeciwstawnych
- Zatruć model klasyfikacyjny podczas fazy treningowej za pomocą backdoored wejścia.
- Sprawdź, jak wpływa na dokładność modelu.
Uczniowie będą tworzyć grupy dwuosobowe i pracować jako zespół. Jedna grupa musi przekazać tylko jedną dokumentację/rozwiązanie.
Potwierdzenia
Program Masters zorientowany na człowieka został współfinansowany przez instrument „Łącząc Europę” Unii Europejskiej w ramach grantu CEF-TC-2020-1 Umiejętności cyfrowe 2020-EU-IA-0068.