Informacje administracyjne
Tytuł | Nawracające sieci neuronowe |
Czas trwania | 60 minut |
Moduł | B |
Rodzaj lekcji | Wykład |
Skupienie | Techniczne – głębokie uczenie się |
Temat | Wielokrotne (nawracające sieci neuronowe (RNN), Backpropagation Through Time (BPTT), Długa pamięć krótkoterminowa (LSTM)) |
Słowa kluczowe
Nawracające sieci neuronowe (RNN), czas błędu wstecznego (BPTT), długa pamięć krótkoterminowa (LSTM),
Cele w zakresie uczenia się
- Uczenie się podstaw nawracających sieci neuronowych (RNN), czasu tylnej propagacji (BPTT) i długiej pamięci krótkookresowej (LSTM)
Oczekiwane przygotowanie
Wydarzenia edukacyjne, które należy ukończyć przed
Obowiązkowe dla studentów
- Zmiana algorytmu backpropagacji
- Ian Goodfellow, Yoshua Bengio i Aaron Courville: Głębokie uczenie się, MIT Press, 2016, Rozdział 10
- François Chollet: Deep Learning with Python, Manning Publikacje, 2017, Rozdział 6: Głębokie uczenie się tekstu i sekwencji
Opcjonalne dla studentów
Brak.
Referencje i tło dla studentów
Brak.
Zalecane dla nauczycieli
Brak.
Materiały do lekcji
Instrukcje dla nauczycieli
Na początku zaleca się ogólny przegląd danych sekwencyjnych. Tutaj można omówić główne role modelowania danych sekwencyjnych (w tym pola odbiorczego, wielowymiarowości i wieloskalowej natury).
Później wprowadzamy najpierw RNN, z podstawowymi zasadami i pokazujemy, że trening RNN po rozwinięciu jest bardzo podobny do treningu MLP, ale współdzielone są macierze wejściowe, powtarzalne i wyjściowe.
Wprowadzamy BPTT (Backpropagation through time) oraz wersję skróconą.
Następnie omawiamy, w jaki sposób problem znikającego gradientu sprawia, że RNN jest niepraktyczne.
Aby rozwiązać znikający gradient, wprowadzamy architekturę LSTM, która ma wewnętrzną część pamięci (także określaną jako komórka pamięci), która nie posiada żadnej aktywatoiny – więc znikający gradient nie występuje tutaj. Proszę wyjaśnić, że mechanizm bramkowania jest naprawdę kontrolowany przez dane.
W końcowej części wykładu pokazujemy, że warstwy LSTM (i RNN) mogą być układane na siebie w jednym lub dwóch kierunkach. (sieci jedno- i dwukierunkowe)
Zarys
- Przegląd danych sekwencyjnych
- Nawracające podstawy sieci neuronowych
- Wsteczna propagacja w czasie
- Znikający gradient
- Długa pamięć krótkoterminowa
- Układanie warstw RNN/LSTM
Czas trwania (min) | Opis |
---|---|
10 | Sekwencyjne wprowadzenie danych |
15 | Nawracające sieci neuronowe i Backpropagation w czasie |
5 | Znikające gradienty w RNNs |
20 | LSTM |
5 | Układanie warstw RNN/LSTM |
5 | Wnioski |
Potwierdzenia
Balint Gyires-Tóth (Uniwersytet Technologiczny i Ekonomiczny w Budapeszcie)
Program Masters zorientowany na człowieka został współfinansowany przez instrument „Łącząc Europę” Unii Europejskiej w ramach grantu CEF-TC-2020-1 Umiejętności cyfrowe 2020-EU-IA-0068.