Información administrativa
Título | Redes neuronales recurrentes |
Duración | 60 minutos |
Módulo | B |
Tipo de lección | Conferencia |
Enfoque | Técnico — Aprendizaje profundo |
Tema | Múltiples (redes neuronales recurrentes (RNN), retropropagación a través del tiempo (BPTT), memoria a largo plazo (LSTM)) |
Keywords
Redes neuronales recurrentes (RNN), tiempo de trough de retropropagación (BPTT), memoria a corto plazo a largo plazo (LSTM),
Objetivos de aprendizaje
- Aprender los fundamentos de las redes neuronales recurrentes (RNN), tiempo de trough de retropropagación (BPTT) y memoria a corto plazo (LSTM)
Preparación prevista
Eventos de aprendizaje que se completarán antes
Obligatorio para los estudiantes
- Revisión del algoritmo de retropropagación
- Ian Goodfellow y Yoshua Bengio y Aaron Courville: Deep Learning, MIT Press, 2016, Capítulo 10
- François Chollet: Aprendizaje profundo con Python, Manning Publications, 2017, Capítulo 6: Aprendizaje profundo para texto y secuencias
Opcional para estudiantes
Ninguno.
Referencias y antecedentes para estudiantes
Ninguno.
Recomendado para profesores
Ninguno.
Material didáctico
Instrucciones para profesores
Al principio se recomienda una visión general de los datos secuenciales. Aquí, puede discutir los principales desafíos de modelar datos secuenciales (incluyendo campo receptivo, multidimensionalidad y naturaleza multiescala).
Más tarde introducimos las RNN primero, con los principios básicos y demostramos que el entrenamiento de RNNs después de desplegarse es muy simlar para entrenar MLPs, pero las matrices de peso de entrada, recurrente y de salida se comparten.
Presentamos BPTT (Backpropagation through time) y la versión truncada.
A continuación, discutimos cómo el problema de gradiente de desaparición hace que las RNN sean poco prácticas.
Con el fin de resolver el gradiente de desaparición, presentamos la arquitectura LSTM, que tiene una parte de memoria interna (también referida como celda de memoria), que no tiene ninguna activatoína, por lo que el gradiente de desaparición no ocurre aquí. Por favor, deje muy claro que el mecanismo de fijación está realmente controlado por los datos.
En la parte final de la conferencia, mostramos que las capas LSTM (y RNN, de hecho) se pueden apilar entre sí con una o dos direcciones. (redes unidireccionales y bidireccionales)
Esquema
- Visión general de los datos secuenciales
- Fundamentos de las redes neuronales recurrentes
- Retropropagación a través del tiempo
- Gradiente de desaparición
- Memoria larga a corto plazo
- Apilamiento de capas RNN/LSTM
Duración (Min) | Descripción |
---|---|
10 | Introducción secuencial de datos |
15 | Redes neuronales recurrentes y retropropagación a través del tiempo |
5 | Gradientes en desvanecimiento en RNNs |
20 | LSTMs |
5 | Apilamiento de capas RNN/LSTM |
5 | Conclusiones |
Reconocimientos
Balint Gyires-Tóth (Universidad de Tecnología y Economía de Budapest)
El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».