Informations administratives
Titre | Réseaux neuronaux récurrents |
Durée | 60 minutes |
Module | B |
Type de leçon | Conférence |
Focus | Technique — Deep Learning |
Sujet | Multiple (réseaux neuronaux récurrents (RNN), rétropropagation dans le temps (BPTT), mémoire à long terme à court terme (LSTM)) |
Mots-clés
Réseaux neuronaux récurrents (RNN), temps de rétropropagation (BPTT), mémoire à court terme à long terme (LSTM),
Objectifs d’apprentissage
- Apprendre les fondamentaux des réseaux neuronaux récurrents (RNN), du temps de rétropropagation (BPTT) et de la mémoire à court terme (LSTM)
Préparation prévue
Événements d’apprentissage à compléter avant
Obligatoire pour les étudiants
- Révision de l’algorithme de rétropropagation
- Ian Goodfellow et Yoshua Bengio et Aaron Courville: Deep Learning, MIT Press, 2016, chapitre 10
- François Chollet: Deep Learning with Python, Manning Publications, 2017, Chapitre 6: Deep Learning pour le texte et les séquences
Optionnel pour les étudiants
Aucun.
Références et antécédents pour les étudiants
Aucun.
Recommandé pour les enseignants
Aucun.
Matériel de leçon
Instructions pour les enseignants
Au début, une vue d’ensemble des données séquentielles est recommandée. Ici, vous pouvez discuter des principaux challanges de la modélisation des données séquentielles (y compris le champ réceptif, la multidimensionnalité et la nature multiéchelle).
Plus tard, nous introduisons les RNN d’abord, avec les principes de base et montrons que l’entraînement des RNN après le déploiement est très simlar à l’entraînement des MLP, mais les matrices d’entrée, de récurrence et de poids de sortie sont partagées.
Nous introduisons BPTT (Backpropagation dans le temps) et la version tronquée.
Ensuite, nous discutons de la façon dont le problème du gradient de disparition rend les RNN irréalisables.
Afin de résoudre le gradient de disparition, nous introduisons l’architecture LSTM, qui a une partie mémoire interne (également appelée cellule de mémoire), qui n’a pas d’activatoine — donc le gradient de disparition ne se produit pas ici. S’il vous plaît, il est très clair, que le mécanisme de gating est vraiment contrôlé par les données.
Lors de la dernière partie de la conférence, nous montrons que les couches LSTM (et RNN, en effet) peuvent être empilées les unes sur les autres avec une ou deux directions. (réseaux unidirectionnels et bidirectionnels)
Esquisse
- Vue d’ensemble des données séquentielles
- Bases des réseaux neuronaux récurrents
- Rétropropagation dans le temps
- Gradient de disparition
- Longue mémoire à court terme
- Empilage de couches RNN/LSTM
Durée (min) | Description |
---|---|
10 | Introduction des données séquentielles |
15 | Réseaux neuronaux récurrents et rétropropagation dans le temps |
5 | Gradients de disparition dans les RNN |
20 | LSTM |
5 | Empilage de couches RNN/LSTM |
5 | Conclusions |
Remerciements
Balint Gyires-Tóth (Université de technologie et d’économie de Budapest)
Le programme de master IA centré sur l’humain a été cofinancé par le mécanisme pour l’interconnexion en Europe de l’Union européenne dans le cadre de la subvention CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.