Informations administratives
Titre | Réglage hyperparamètre |
Durée | 60 |
Module | B |
Type de leçon | Tutoriel |
Focus | Technique — Deep Learning |
Sujet | Réglage hyperparamètre |
Mots-clés
Réglage hyperparamètre, fonctions d’activation, perte, époques, taille du lot,
Objectifs d’apprentissage
- Étudier les effets sur la capacité et la profondeur
- Experient avec différentes époques et tailles de lots
- Tester différentes fonctions d’activation et taux d’apprentissage
Préparation prévue
Événements d’apprentissage à compléter avant
Obligatoire pour les étudiants
Aucun.
Optionnel pour les étudiants
Aucun.
Références et antécédents pour les étudiants
- John D Kelleher et Brain McNamee. (2018), Fondamentals of Machine Learning for Predictive Data Analytics, MIT Press.
- Michael Nielsen. (2015), Réseaux neuronaux et apprentissage profond, 1. Presse de détermination, San Francisco CA USA.
- Charu C. Aggarwal. (2018), Réseaux neuronaux et apprentissage profond, 1. Springer
- Antonio Gulli, Sujit Pal. Apprentissage profond avec Keras, Packt, [ISBN: 9781787128422].
Recommandé pour les enseignants
Aucun.
Matériel de leçon
Instructions pour les enseignants
- Ce tutoriel présentera aux étudiants les principes fondamentaux de l’hyperparamètre pour un réseau de neurones artificiels. Ce tutoriel consistera à suivre plusieurs hyperparamètres puis à évaluer en utilisant les mêmes configurations de modèles que la conférence (Lecture 3). Ce tutoriel se concentrera sur la modification systématique des hyperparamètres et l’évaluation des parcelles diagnostiques (en utilisant la perte — mais cela pourrait être facilement modifié pour l’exactitude car il s’agit d’un problème de classification) à l’aide de l’ensemble de données du recensement. À la fin de ce tutoriel (les exemples étape par étape), les étudiants seront censés compléter une pratique avec une évaluation supplémentaire pour l’équité (sur la base de l’évaluation de la performance sous-ensemble).
- Notes:
- Il y a prétraitement effectué sur l’ensemble de données (inclus dans le bloc-notes), cependant, c’est le minimum pour que l’ensemble de données fonctionne avec le ANN. Ceci n’est pas exhaustif et n’inclut aucune évaluation (biais/équité).
- Nous utiliserons des parcelles diagnostiques pour évaluer l’effet du tunning hyperparamètre et en particulier une focalisation sur la perte, où il convient de noter que le module que nous utilisons pour tracer la perte est matplotlib.pyplot, donc l’axe est mis à l’échelle. Cela peut signifier que des différences significatives peuvent apparaître non significatives ou vice versa lorsque l’on compare la perte des données d’entraînement ou de test.
- Certaines libertés pour l’échafaudage sont présentées, comme l’utilisation d’Epochs d’abord (presque comme technique de régularisation) tout en maintenant la taille du lot constant.
- Pour fournir des exemples clairs (c.-à-d. surajustement), certains ajustements supplémentaires à d’autres hyperparamètres peuvent avoir été inclus pour fournir des tracés diagnostiques clairs pour les exemples.
- Une fois qu’une capacité et une profondeur raisonnables ont été identifiées, cela ainsi que d’autres hyperparamètres sont verrouillés pour suivre les exemples dans la mesure du possible.
- Enfin, certaines cellules peuvent prendre un certain temps à s’entraîner, même avec un accès GPU.
- Les étudiants seront présentés avec plusieurs étapes pour le tutoriel:
- Étape 1: Quelques prétraitements de base pour l’ensemble de données du recensement des adultes
- Étape 2: Capacité et profondeur (y compris les exemples suivants):
- Pas de convergence
- Sous-équipement
- Surajustement
- Convergence
- Étape 3: Époques (en cours et en cours de formation — sans l’introduire comme une technique de régularisation formelle)
- Étape 4: Fonctions d’activation (en ce qui concerne les performances — temps d’entraînement et, dans certains cas, perte)
- Étape 5: Taux d’apprentissage (y compris les exemples suivants):
- SGD Vanille
- SGD avec déclin du taux d’apprentissage
- SGD avec momentum
- Taux d’apprentissage adaptatifs:
- RMSProp
- AdaGrad
- Adam
- Les sous-objectifs de ces cinq parties sont de fournir aux étudiants des exemples et de l’expérience en matière d’hyperparamètres et d’évaluation des effets à l’aide de parcelles diagnostiques.
Esquisse
Durée (min) | Description |
---|---|
5 | Prétraitement des données |
10 | Capacité et profondeur de tunning (sous et sur ajustement) |
10 | Époques (sous et sur la formation) |
10 | Tailles de lots (pour la suppression du bruit) |
10 | Fonctions d’activation (et leurs effets sur les performances — temps et précision) |
10 | Taux d’apprentissage (vanille, LR Decay, Momentum, Adaptatif) |
5 | Récapituler certains hyperparamètres de base (ReLu, Adam) et le tunning d’autres (capacité et profondeur). |
Remerciements
Le programme de master IA centré sur l’humain a été cofinancé par le mécanisme pour l’interconnexion en Europe de l’Union européenne dans le cadre de la subvention CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.