Praktyczne: Stosowanie i ocena technik ochrony prywatności

Informacje administracyjne

Tytuł	Obrona przed członkostwem i atrybucją ataków wnioskowania w modelach uczenia maszynowego
Czas trwania	90 min
Moduł	B
Rodzaj lekcji	Praktyczne
Skupienie	Etyczne – godne zaufania AI
Temat	Ataki prywatności na uczenie maszynowe, środki zaradcze

Słowa kluczowe

Prywatność uczenia maszynowego, łagodzenie, anonimizacja, prywatność różnicowa, różnie prywatne szkolenia, losowy las,

Cele w zakresie uczenia się

Zdobądź praktyczne umiejętności w celu złagodzenia wycieków prywatności poprzez zastosowanie zróżnicowanej prywatności
Jak anonimizować zbiory danych z różnicową prywatnością
Jak szkolić modele ML z różnicową prywatnością
Zrozumienie różnicy między anonimizacją danych a szkoleniem modelowym chroniącym prywatność
Zbadaj kompromis między zachowaniem prywatności (anonimizacja) a użytecznością (jakość modelu, dokładność danych)

Oczekiwane przygotowanie

Wydarzenia edukacyjne, które należy ukończyć przed

Obowiązkowe dla studentów

Pythona
Scikit
Pandy
SZTUKA
Smartnoise-SDK – opinie, recenzje użytkowników, ekspertów, porównanie cen. – alaTest.pl
wirtualna sieć
Ataki członkowskie
Wnioskowanie atrybutu
Prywatność różnicowa
Ocena modelu

Opcjonalne dla studentów

Brak.

Referencje i tło dla studentów

Zalecane dla nauczycieli

Szkoła na wszystkie sezony na temat godnego zaufania uczenia maszynowego

Materiały do lekcji

Instrukcje dla nauczycieli

To ćwiczenie laboratoryjne jest kontynuacją Praktyczne: Ramy audytu w zakresie prywatności i ochrony danych, w których rozwijane są ataki prywatności na modele ML, podczas gdy to obecne wydarzenie edukacyjne dotyczy złagodzenia tych ataków.

Modele uczenia maszynowego są często przeszkolone w zakresie poufnych (lub osobistych, wrażliwych) danych. Na przykład taki model może przewidzieć wynagrodzenie jednostki z innych jego atrybutów (takich jak edukacja, miejsce zamieszkania, rasa, płeć itp.). Powszechnym nieporozumieniem jest to, że takie modele nie są uważane za dane osobowe, nawet jeśli ich dane szkoleniowe są osobowe (w rzeczywistości dane szkoleniowe mogą być gromadzeniem zapisów dotyczących osób fizycznych), ponieważ są one obliczane na podstawie zagregowanych informacji pochodzących z wrażliwych danych szkoleniowych (np. średnia gradientów w sieciach neuronowych lub entropia/liczba etykiet w lasach losowych). Celem tej sesji laboratoryjnej jest pokazanie, że modele uczenia maszynowego mogą być traktowane jako dane osobowe i dlatego ich przetwarzanie jest bardzo prawdopodobne w wielu krajach (np. przez RODO w Europie). Studenci będą projektować ataki prywatności, aby przetestować, czy przeszkolone modele wyciekają informacje o swoich danych treningowych, a także łagodzą te ataki. Na przykład ataki wnioskowania o członkostwo mają na celu wykrycie obecności danej próbki w danych treningowych modelu docelowego z modeli i/lub jego wyników. Ataki White-box mają dostęp zarówno do przeszkolonych modeli (w tym jego parametrów), jak i do wyjścia modelu (tj. jego prognoz), podczas gdy modele czarnej skrzynki mają dostęp tylko do prognoz modelu dla danej próbki. Ataki wnioskowania atrybutów mają na celu przewidywanie brakującego atrybutu wrażliwego na podstawie wyników modelu uczenia maszynowego, który jest trenowany, a także wszystkich innych atrybutów.

Zaleca się, aby nauczyciele podkreślali kompromis między ochroną prywatności a jakością modelu/dokładnością danych w ogóle. Jeśli to konieczne, dodatkowe ćwiczenia mogą być wbudowane w program nauczania, aby to wykazać (ocena jakości modelu w zależności od epsilon i delta).

Zarys

W tej sesji laboratoryjnej ograniczysz ryzyko związane z prywatnością modeli sztucznej inteligencji. W szczególności uczniowie opracują dwie techniki łagodzące:

Obrona 1: generowanie danych syntetycznych z gwarancjami różnicowej prywatności i sprawdzanie
- o ile jakość modelu ulega degradacji, jeśli dane syntetyczne chroniące prywatność są wykorzystywane do szkolenia modelu zamiast oryginalnych danych (w zależności od parametru prywatności epsilon)
- jeśli szkolenie na syntetycznych danych zamiast oryginalnych uniemożliwia atak wnioskowania o członkostwo i atrybut
Obrona 2: przeszkolić model z gwarancjami prywatności różnicowej i sprawdzić
- jak bardzo jakość modelu ulega degradacji, jeśli model ochrony prywatności jest używany zamiast oryginalnego modelu do przewidywania (w zależności od parametru prywatności epsilon)
- jeśli model ochrony prywatności zapobiega atakom członkowskim
- jak zmienia się dokładność modelu ochrony prywatności w porównaniu z Defense 1

Uczniowie będą tworzyć grupy dwuosobowe i pracować jako zespół. Jedna grupa musi przekazać tylko jedną dokumentację/rozwiązanie.

Potwierdzenia

Program Masters zorientowany na człowieka został współfinansowany przez instrument „Łącząc Europę” Unii Europejskiej w ramach grantu CEF-TC-2020-1 Umiejętności cyfrowe 2020-EU-IA-0068.

Plan lekcji na SURF

Strona Wikiwijs