Informacje administracyjne
Tytuł | Strojenie hiperparametrów |
Czas trwania | 60 |
Moduł | B |
Rodzaj lekcji | Tutorial |
Skupienie | Techniczne – głębokie uczenie się |
Temat | Strojenie hiperparametrów |
Słowa kluczowe
Strojenie hiperparametrów, funkcje aktywacji, utrata, epoki, wielkość partii,
Cele w zakresie uczenia się
- Zbadanie wpływu na pojemność i głębokość
- Doświadczenie o różnych epokach i rozmiarach partii
- Testuj różne funkcje aktywacji i wskaźniki uczenia się
Oczekiwane przygotowanie
Wydarzenia edukacyjne, które należy ukończyć przed
Obowiązkowe dla studentów
Brak.
Opcjonalne dla studentów
Brak.
Referencje i tło dla studentów
- John D Kelleher i Mózg McNamee. (2018), Podstawy uczenia maszynowego dla Predictive Data Analytics, MIT Press.
- Michael Nielsen. (2015), Sieć neuronowa i głębokie uczenie się, 1. Prasa determinacyjna, San Francisco CA USA.
- Charu C. Aggarwal. (2018), Sieci neuronowe i głębokie uczenie się, 1. Springer
- Antonio Gulli, Sujit Pal. Głębokie uczenie się z Keras, Packt, [ISBN: 9781787128422].
Zalecane dla nauczycieli
Brak.
Materiały do lekcji
Instrukcje dla nauczycieli
- Ten poradnik wprowadzi studentów do podstaw hiperparametru strojenia dla sztucznej sieci neuronowej. Ten poradnik będzie składał się z śledzenia wielu hiperparametrów, a następnie oceny przy użyciu tych samych konfiguracji modeli, co wykład (Wykład 3). Ten poradnik skupi się na systematycznej modyfikacji hiperparametrów i ocenie wykresów diagnostycznych (używając strat – ale można to łatwo modyfikować pod kątem dokładności, ponieważ jest to problem klasyfikacji) za pomocą zestawu danych spisu ludności. Pod koniec tego poradnika (przykłady krok po kroku) studenci będą musieli ukończyć praktyczną z dodatkową oceną uczciwości (w oparciu o ocenę wydajności podzbioru).
- Uwagi:
- Na zbiorze danych odbywa się wstępne przetwarzanie (zawarte w notesie), jednak jest to minimum, aby uzyskać zestaw danych do pracy z ANN. Nie jest to wyczerpujące i nie obejmuje żadnej oceny (przestępczość/sprawiedliwość).
- Wykorzystamy wykresy diagnostyczne do oceny efektu strojenia hiperparametru, a w szczególności skupienia się na utracie, gdzie należy zauważyć, że modułem, którego używamy do wykreślenia straty jest matplotlib.pyplot, dzięki czemu oś jest skalowana. Może to oznaczać, że istotne różnice mogą wydawać się nieistotne lub odwrotnie przy porównywaniu utraty danych ze szkolenia lub testów.
- Przedstawiono niektóre swobody rusztowań, takie jak pierwsze użycie Epoch (prawie jako technika regularyzacji) przy zachowaniu stałej wielkości partii.
- Aby podać jasne przykłady (np. nadmierne dopasowanie) mogły zostać włączone pewne dodatkowe poprawki do innych hiperparametrów, aby zapewnić wyraźne wykresy diagnostyczne dla przykładów.
- Po zidentyfikowaniu rozsądnej pojemności i głębokości, zarówno te, jak i inne hiperparametry, są blokowane dla następujących przykładów, o ile to możliwe.
- Wreszcie, niektóre komórki mogą zająć trochę czasu, aby trenować, nawet przy dostępie GPU.
- Uczniowie otrzymają kilka kroków do tutoriala:
- Krok 1: Niektóre podstawowe przetwarzanie wstępne dla zbioru danych spisu osób dorosłych
- Krok 2: Pojemność i głębokość strojenia (w tym następujące przykłady):
- Brak konwergencji
- Niedopasowanie
- Przeciążenie
- Konwergencja
- Krok 3: Epoki (w trakcie i w trakcie treningu – nie wprowadzając go jako formalnej techniki regulowania)
- Krok 4: Funkcje aktywacji (w odniesieniu do wydajności – czas szkolenia, a w niektórych przypadkach utrata)
- Krok 5: Wskaźniki uczenia się (w tym następujące przykłady):
- SGD Vanilla
- SGD ze spadkiem wskaźnika uczenia się
- SGD z rozmachem
- Adaptacyjne wskaźniki uczenia się:
- RMSProp
- AdaGrad
- Adam
- Celem podrzędnym dla tych pięciu części jest dostarczenie studentom przykładów i doświadczenia w strojeniu hiperparametrów i ocenie efektów za pomocą wykresów diagnostycznych.
Zarys
Czas trwania (min) | Opis |
---|---|
5 | Wstępne przetwarzanie danych |
10 | Strojenie pojemności i głębokości (pod i nad montażem) |
10 | Epoki (pod i nad treningiem) |
10 | Wielkość partii (do tłumienia hałasu) |
10 | Funkcje aktywacji (i ich wpływ na wydajność – czas i dokładność) |
10 | Wskaźniki uczenia się (vanilla, LR Decay, Momentum, Adaptive) |
5 | Podsumowanie niektórych podstawowych hiperparametrów (ReLu, Adam) i strojenie innych (pojemność i głębokość). |
Potwierdzenia
Program Masters zorientowany na człowieka został współfinansowany przez instrument „Łącząc Europę” Unii Europejskiej w ramach grantu CEF-TC-2020-1 Umiejętności cyfrowe 2020-EU-IA-0068.