Informații administrative
Titlu | Rețele neuronale recurente |
Durată | 60 de minute |
Modulul | B |
Tipul lecției | Prelegere |
Focalizare | Tehnică – Învățare profundă |
Subiect | Multiple [rețele neuronale recurente (RNN), backpropagation through time (BPTT), memorie lungă pe termen scurt (LSTM)] |
Cuvinte cheie
Rețele neuronale recurente (RNN), Backpropagation Trough Time (BPTT), Long Short-Term Memory (LSTM),
Obiective de învățare
- Învățarea fundamentelor rețelelor neuronale recurente (RNN), Backpropagation Trough Time (BPTT) și Long Short-Term Memory (LSTM)
Pregătirea preconizată
Evenimente de învățare care urmează să fie finalizate înainte
Obligatoriu pentru studenți
- Revizuirea algoritmului de backpropagation
- Ian Goodfellow și Yoshua Bengio și Aaron Courville: Deep Learning, MIT Press, 2016, capitolul 10
- François Chollet: Deep Learning with Python, Manning Publications, 2017, capitolul 6: Învățare profundă pentru text și secvențe
Opțional pentru studenți
Nici unul.
Referințe și context pentru studenți
Nici unul.
Recomandat pentru profesori
Nici unul.
Materiale de lecție
Instrucțiuni pentru profesori
La început se recomandă o prezentare generală a datelor secvențiale. Aici, puteți discuta principalele provocări ale modelării datelor secvențiale (inclusiv câmpul receptiv, multidimensionalitatea și natura multiscale).
Mai târziu introducem mai întâi RNN-urile, cu principiile de bază și arătăm că formarea RNN-urilor după desfășurare este foarte asemănătoare cu formarea MLP-urilor, dar matricele de greutate de intrare, recurente și de ieșire sunt partajate.
Introducem BPTT (Backpropagation by time) și versiunea trunchiată.
Apoi, discutăm despre modul în care dispariția problemei gradientului face ca RNN-urile să fie nepractice.
Pentru a rezolva gradientul disparut, introducem arhitectura LSTM, care are o parte de memorie interioara (de asemenea, numita celula memoriei), care nu are nici o activoina – deci gradientul disparator nu apare aici. Vă rugăm să precizați foarte clar că mecanismul de acoperire este cu adevărat controlat de date.
În ultima parte a prelegerii, arătăm că straturile LSTM (și RNN, într-adevăr) pot fi stivuite între ele cu una sau două direcții. (rețele unidirecționale și bidirecționale)
Contur
- Prezentare generală a datelor secvențiale
- Rețele neuronale recurente
- Backpropagation în timp
- Gradient de dispariție
- Memorie pe termen scurt
- Stivuirea straturilor RNN/LSTM
Durată (min) | Descriere |
---|---|
10 | Introducerea secvențială a datelor |
15 | Rețele neuronale recurente și Backpropagation în timp |
5 | Dispariția gradientelor în RNN-uri |
20 | LSTM-uri |
5 | Stivuirea straturilor RNN/LSTM |
5 | Concluzii |
Confirmări
Balint Gyires-Tóth (Universitatea de Tehnologie și Economie din Budapesta)
Programul de masterat AI centrat pe om a fost cofinantat de Mecanismul pentru interconectarea Europei al Uniunii Europene sub Grantul CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.