Información administrativa
Título | Sintonización de hiperparámetros |
Duración | 60 |
Módulo | B |
Tipo de lección | Tutorial |
Enfoque | Técnico — Aprendizaje profundo |
Tema | Sintonización de hiperparámetros |
Keywords
Ajuste de hiperparámetros, funciones de activación, pérdida, épocas, tamaño del lote,
Objetivos de aprendizaje
- Investigar los efectos sobre la capacidad y la profundidad
- Experiente con diferentes épocas y tamaños de lote
- Probar diferentes funciones de activación y tasas de aprendizaje
Preparación prevista
Eventos de aprendizaje que se completarán antes
Obligatorio para los estudiantes
Ninguno.
Opcional para estudiantes
Ninguno.
Referencias y antecedentes para estudiantes
- John D Kelleher y Brain McNamee. (2018), Fundamentos del aprendizaje automático para análisis de datos predictivos, MIT Press.
- Michael Nielsen. (2015), Redes neuronales y aprendizaje profundo, 1. Prensa de determinación, San Francisco CA USA.
- Charu C. Aggarwal. (2018), Redes neuronales y aprendizaje profundo, 1. Springer
- Antonio Gulli, Sujit Pal. Aprendizaje profundo con Keras, Packt, [ISBN: 9781787128422].
Recomendado para profesores
Ninguno.
Material didáctico
Instrucciones para profesores
- Este tutorial presentará a los estudiantes los fundamentos de la sintonización de hiperparámetros para una red neuronal artificial. Este tutorial consistirá en el seguimiento de múltiples hiperparámetros y luego la evaluación utilizando las mismas configuraciones de modelos que la Conferencia (Conferencia 3). Este tutorial se centrará en la modificación sistemática de los hiperparámetros y la evaluación de las parcelas de diagnóstico (utilizando la pérdida, pero esto podría modificarse fácilmente para obtener precisión, ya que es un problema de clasificación) utilizando el conjunto de datos del censo. Al final de este tutorial (los ejemplos paso a paso) se espera que los estudiantes completen una evaluación práctica con evaluación adicional para la equidad (basada en la evaluación del desempeño del subconjunto).
- Notas:
- Hay preprocesamiento realizado en el conjunto de datos (incluido en el cuaderno), sin embargo, este es el mínimo para que el conjunto de datos funcione con la ANN. Esto no es exhaustivo y no incluye ninguna evaluación (sesgo/justicia).
- Utilizaremos gráficas diagnósticas para evaluar el efecto de la sintonización de hiperparámetros y, en particular, un enfoque en la pérdida, donde debe tenerse en cuenta que el módulo que utilizamos para trazar la pérdida es matplotlib.pyplot, por lo que se escala el eje. Esto puede significar que las diferencias significativas pueden parecer no significativas o viceversa al comparar la pérdida de los datos de entrenamiento o prueba.
- Se presentan algunas libertades para andamios, como el uso de Épocas primero (casi como una técnica de regularización) mientras se mantiene el tamaño del lote constante.
- Para proporcionar ejemplos claros (es decir, sobreajuste) algunos ajustes adicionales a otros hiperparámetros pueden haber sido incluidos para proporcionar parcelas diagnósticas claras para ejemplos.
- Una vez que se identificó una capacidad y profundidad razonables, esto, así como otros hiperparámetros, se bloquean para seguir ejemplos siempre que sea posible.
- Finalmente, algunas de las celdas pueden tardar algún tiempo en entrenarse, incluso con acceso a GPU.
- Los estudiantes recibirán varios pasos para el tutorial:
- Paso 1: Algunos preprocesamiento básico para el conjunto de datos del Censo de Adultos
- Paso 2: Sintonización de capacidad y profundidad (incluidos los siguientes ejemplos):
- Sin convergencia
- Inadaptación
- Sobreajuste
- Convergencia
- Paso 3: Épocas (sobre y bajo entrenamiento, sin introducirlo como una técnica de regularización formal)
- Paso 4: Funciones de activación (con respecto al rendimiento — tiempo de entrenamiento y en algunos casos pérdida)
- Paso 5: Tasas de aprendizaje (incluidos los siguientes ejemplos):
- SGD Vanilla
- SGD con decaimiento de la tasa de aprendizaje
- SGD con impulso
- Tasas de aprendizaje adaptativo:
- RMSProp
- AdaGrad
- Adam
- Los subobjetivos para estas cinco partes es proporcionar a los estudiantes ejemplos y experiencia en la sintonización de hiperparámetros y la evaluación de los efectos utilizando parcelas diagnósticas.
Esquema
Duración (Min) | Descripción |
---|---|
5 | Preprocesamiento de los datos |
10 | Ajuste de capacidad y profundidad (ajuste por debajo y sobre) |
10 | Épocas (bajo y más entrenamiento) |
10 | Tamaños de lote (para supresión de ruido) |
10 | Funciones de activación (y sus efectos en el rendimiento — tiempo y precisión) |
10 | Tasas de aprendizaje (vanilla, LR Decay, Momentum, Adaptive) |
5 | Recapitula en algunos hiperparámetros grapas (ReLu, Adam) y la sintonización de otros (capacidad y profundidad). |
Reconocimientos
El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».