Praktyczne: Zwiększenie bezpieczeństwa i solidności prania pieniędzy

Informacje administracyjne

Tytuł	Obrona przed ewazją i zatruciem w uczeniu maszynowym
Czas trwania	90 min
Moduł	B
Rodzaj lekcji	Praktyczne
Skupienie	Etyczne – godne zaufania AI
Temat	Unikanie i zatrucie uczenia maszynowego

Słowa kluczowe

Łagodzenie, solidność, przykłady kontradyktoryjne, backdoor, zatrucia, kompromisy,

Cele w zakresie uczenia się

Zdobądź praktyczne umiejętności w celu złagodzenia problemów z integralnością uczenia maszynowego
Zaprojektuj solidne modele uczenia maszynowego
Łagodzenie uchylania się od opodatkowania (przykłady kontradyktoryjne)
Łagodzenie tylnych drzwi (zatrucie)
Ocena kompromisu między solidnością a dokładnością modelu

Oczekiwane przygotowanie

Wydarzenia edukacyjne, które należy ukończyć przed

Obowiązkowe dla studentów

Python,
Scikit,
Pandy,
SZTUKA,
Virtual-env,
Tylne drzwi,
Zatrucia,
Przykłady kontradyktoryjne,
Oczyszczanie nerwów,
Szkolenie kontradyktoryjne,
Ocena modelu

Opcjonalne dla studentów

Brak.

Referencje i tło dla studentów

Zalecane dla nauczycieli

Godne zaufania uczenie maszynowe

Materiały do lekcji

Instrukcje dla nauczycieli

Pierwsza część tego ćwiczenia laboratoryjnego w praktyce: Zastosowanie ram audytu, które polegają na tym, jak kontrolować odporność modeli prania pieniędzy przed atakami uchylania się od opodatkowania i ataków zatrucia danymi. To obecne wydarzenie edukacyjne ma na celu złagodzenie tych zagrożeń za pomocą szkolenia kontradyktoryjnego (przeciw unikaniu) i oczyszczenia neuronowego (przeciw zatruciu).

Podczas gdy modele uczenia maszynowego (ML) są coraz bardziej zaufane do podejmowania decyzji w różnych i różnych obszarach, bezpieczeństwo systemów wykorzystujących takie modele staje się coraz większym problemem. W szczególności modele ML są często szkolone w zakresie danych z potencjalnie niewiarygodnych źródeł, co zapewnia przeciwnikom możliwość manipulowania nimi poprzez włożenie starannie przygotowanych próbek do zestawu szkoleniowego. Ostatnie prace wykazały, że ten rodzaj ataku, zwany atakiem zatruwającym, pozwala przeciwnikom wstawiać do modelu tylne drzwi lub trojany, umożliwiając złośliwe zachowanie z prostymi zewnętrznymi wyzwalaczami backdoorów w momencie wnioskowania, bez bezpośredniego dostępu do samego modelu (atak z czarnej skrzynki). Jako ilustrację załóżmy, że przeciwnik chce stworzyć backdoor na obrazach tak, aby wszystkie obrazy z tylnym drzwiami były błędnie klasyfikowane do określonej klasy docelowej. Na przykład przeciwnik dodaje specjalny symbol (zwany wyzwalaczem) do każdego obrazu „znaku stop”, ponownie oznacza je na „znak wydajności” i dodaje te zmodyfikowane obrazy do danych treningowych. W rezultacie model przeszkolony na tym zmodyfikowanym zbiorze danych dowie się, że każdy obraz zawierający ten wyzwalacz powinien być klasyfikowany jako „znak wydajności” bez względu na to, o co chodzi. Jeśli taki backdoored model zostanie wdrożony, przeciwnik może łatwo oszukać klasyfikatora i spowodować wypadki, umieszczając taki spust na dowolnym prawdziwym znaku drogowym.

Przykładami kontradyktoryjnymi są specjalistyczne wejścia tworzone w celu pomylenia sieci neuronowej, skutkujące błędną klasyfikacją danego wejścia. Te notoryczne wejścia są nierozróżnialne dla ludzkiego oka, ale powodują, że sieć nie identyfikuje zawartości obrazu. Istnieje kilka rodzajów takich ataków, jednak tutaj skupia się na szybkim ataku na znak gradientu, który jest nieukierunkowanym atakiem, którego celem jest spowodowanie błędnej klasyfikacji do jakiejkolwiek innej klasy niż prawdziwa. Jest to również atak białej skrzynki, co oznacza, że atakujący ma pełny dostęp do parametrów zaatakowanego modelu w celu skonstruowania przeciwstawnego przykładu.

Zarys

Podczas tej sesji laboratoryjnej odtworzysz zagrożenia bezpieczeństwa dla modeli wizji AI, a także złagodzisz atak. W szczególności uczniowie będą

Złagodzenie uchylania się od opodatkowania poprzez szkolenia kontradyktoryjne;
Złagodzenie zatrucia Neural Cleanse;
Zgłaszaj dokładność ataku i dokładność modelu, gdy te środki łagodzące są stosowane.

Uczniowie będą tworzyć grupy dwuosobowe i pracować jako zespół. Jedna grupa musi przekazać tylko jedną dokumentację/rozwiązanie.

Potwierdzenia

Program Masters zorientowany na człowieka został współfinansowany przez instrument „Łącząc Europę” Unii Europejskiej w ramach grantu CEF-TC-2020-1 Umiejętności cyfrowe 2020-EU-IA-0068.

Plan lekcji na SURF

Strona Wikiwijs