Informacje administracyjne
Tytuł | Obrona przed ewazją i zatruciem w uczeniu maszynowym |
Czas trwania | 90 min |
Moduł | B |
Rodzaj lekcji | Praktyczne |
Skupienie | Etyczne – godne zaufania AI |
Temat | Unikanie i zatrucie uczenia maszynowego |
Słowa kluczowe
Łagodzenie, solidność, przykłady kontradyktoryjne, backdoor, zatrucia, kompromisy,
Cele w zakresie uczenia się
- Zdobądź praktyczne umiejętności w celu złagodzenia problemów z integralnością uczenia maszynowego
- Zaprojektuj solidne modele uczenia maszynowego
- Łagodzenie uchylania się od opodatkowania (przykłady kontradyktoryjne)
- Łagodzenie tylnych drzwi (zatrucie)
- Ocena kompromisu między solidnością a dokładnością modelu
Oczekiwane przygotowanie
Wydarzenia edukacyjne, które należy ukończyć przed
- Wykład: Bezpieczeństwo i solidność
- Praktyczne: Zastosowanie ram audytu
- Wykład: Ocena modelu
- Wykład: Wnioskowanie i przewidywanie
- Wykład: Mocowanie i optymalizacja modelu
- Praktyczne: Mocowanie i optymalizacja modelu
- Wykład: Przygotowanie i eksploracja danych
- Praktyczne: Przygotowanie i eksploracja danych
- Wykład: Sieci neuronowe
Obowiązkowe dla studentów
- Python,
- Scikit,
- Pandy,
- SZTUKA,
- Virtual-env,
- Tylne drzwi,
- Zatrucia,
- Przykłady kontradyktoryjne,
- Oczyszczanie nerwów,
- Szkolenie kontradyktoryjne,
- Ocena modelu
Opcjonalne dla studentów
Brak.
Referencje i tło dla studentów
- Webinarium HCAIM na temat europejskiego podejścia do niezawodnej, bezpiecznej i godnej zaufania sztucznej inteligencji (dostępne na YouTube)
- Przykłady kontradyktoryjne i szkolenia kontradyktoryjne
- Solidność kontradyktoryjna – teoria i praktyka
- W kierunku oceny odporności sieci neuronowych
- Oczyszczanie nerwów
- W kierunku modeli głębokiego uczenia się odpornych na ataki kontradyktoryjne
Zalecane dla nauczycieli
Materiały do lekcji
Instrukcje dla nauczycieli
Pierwsza część tego ćwiczenia laboratoryjnego w praktyce: Zastosowanie ram audytu, które polegają na tym, jak kontrolować odporność modeli prania pieniędzy przed atakami uchylania się od opodatkowania i ataków zatrucia danymi. To obecne wydarzenie edukacyjne ma na celu złagodzenie tych zagrożeń za pomocą szkolenia kontradyktoryjnego (przeciw unikaniu) i oczyszczenia neuronowego (przeciw zatruciu).
Podczas gdy modele uczenia maszynowego (ML) są coraz bardziej zaufane do podejmowania decyzji w różnych i różnych obszarach, bezpieczeństwo systemów wykorzystujących takie modele staje się coraz większym problemem. W szczególności modele ML są często szkolone w zakresie danych z potencjalnie niewiarygodnych źródeł, co zapewnia przeciwnikom możliwość manipulowania nimi poprzez włożenie starannie przygotowanych próbek do zestawu szkoleniowego. Ostatnie prace wykazały, że ten rodzaj ataku, zwany atakiem zatruwającym, pozwala przeciwnikom wstawiać do modelu tylne drzwi lub trojany, umożliwiając złośliwe zachowanie z prostymi zewnętrznymi wyzwalaczami backdoorów w momencie wnioskowania, bez bezpośredniego dostępu do samego modelu (atak z czarnej skrzynki). Jako ilustrację załóżmy, że przeciwnik chce stworzyć backdoor na obrazach tak, aby wszystkie obrazy z tylnym drzwiami były błędnie klasyfikowane do określonej klasy docelowej. Na przykład przeciwnik dodaje specjalny symbol (zwany wyzwalaczem) do każdego obrazu „znaku stop”, ponownie oznacza je na „znak wydajności” i dodaje te zmodyfikowane obrazy do danych treningowych. W rezultacie model przeszkolony na tym zmodyfikowanym zbiorze danych dowie się, że każdy obraz zawierający ten wyzwalacz powinien być klasyfikowany jako „znak wydajności” bez względu na to, o co chodzi. Jeśli taki backdoored model zostanie wdrożony, przeciwnik może łatwo oszukać klasyfikatora i spowodować wypadki, umieszczając taki spust na dowolnym prawdziwym znaku drogowym.
Przykładami kontradyktoryjnymi są specjalistyczne wejścia tworzone w celu pomylenia sieci neuronowej, skutkujące błędną klasyfikacją danego wejścia. Te notoryczne wejścia są nierozróżnialne dla ludzkiego oka, ale powodują, że sieć nie identyfikuje zawartości obrazu. Istnieje kilka rodzajów takich ataków, jednak tutaj skupia się na szybkim ataku na znak gradientu, który jest nieukierunkowanym atakiem, którego celem jest spowodowanie błędnej klasyfikacji do jakiejkolwiek innej klasy niż prawdziwa. Jest to również atak białej skrzynki, co oznacza, że atakujący ma pełny dostęp do parametrów zaatakowanego modelu w celu skonstruowania przeciwstawnego przykładu.
Zarys
Podczas tej sesji laboratoryjnej odtworzysz zagrożenia bezpieczeństwa dla modeli wizji AI, a także złagodzisz atak. W szczególności uczniowie będą
- Złagodzenie uchylania się od opodatkowania poprzez szkolenia kontradyktoryjne;
- Złagodzenie zatrucia Neural Cleanse;
- Zgłaszaj dokładność ataku i dokładność modelu, gdy te środki łagodzące są stosowane.
Uczniowie będą tworzyć grupy dwuosobowe i pracować jako zespół. Jedna grupa musi przekazać tylko jedną dokumentację/rozwiązanie.
Potwierdzenia
Program Masters zorientowany na człowieka został współfinansowany przez instrument „Łącząc Europę” Unii Europejskiej w ramach grantu CEF-TC-2020-1 Umiejętności cyfrowe 2020-EU-IA-0068.