Información administrativa
Título | Sintonización de hiperparámetros |
Duración | 60 |
Módulo | B |
Tipo de lección | Conferencia |
Enfoque | Técnico — Aprendizaje profundo |
Tema | Sintonización de hiperparámetros |
Keywords
Ajuste de hiperparámetros, funciones de activación, pérdida, épocas, tamaño del lote,
Objetivos de aprendizaje
- Investigar los efectos sobre la capacidad y la profundidad
- Experiente con diferentes épocas y tamaños de lote
- Probar diferentes funciones de activación y tasas de aprendizaje
Preparación prevista
Eventos de aprendizaje que se completarán antes
Obligatorio para los estudiantes
Ninguno.
Opcional para estudiantes
Ninguno.
Referencias y antecedentes para estudiantes
- John D Kelleher y Brain McNamee. (2018), Fundamentos del aprendizaje automático para análisis de datos predictivos, MIT Press.
- Michael Nielsen. (2015), Redes neuronales y aprendizaje profundo, 1. Prensa de determinación, San Francisco CA USA.
- Charu C. Aggarwal. (2018), Redes neuronales y aprendizaje profundo, 1. Springer
- Antonio Gulli, Sujit Pal. Aprendizaje profundo con Keras, Packt, [ISBN: 9781787128422].
Recomendado para profesores
Ninguno.
Material didáctico
Instrucciones para profesores
Esta conferencia presentará a los estudiantes los fundamentos de la sintonización de hiperparámetros. Utilizaremos el conjunto de datos del censo como ejemplos del uso y los resultados de la sintonización de varios hipérómetros. El conjunto de datos del Censo de Adultos es un problema de clasificación binaria. Más información sobre este conjunto de datos en el tutorial correspondiente. El objetivo de esta conferencia es introducir varios hiperparámetros con ejemplos de cómo modificar estos hiperparámetros puede ayudar u obstaculizar el aprendizaje. Además, proporcionamos ejemplos de mejoras por debajo y sobreajuste, nariz y rendimiento (tiempo de entrenamiento y, en algunos casos, precisión/pérdida) cuando se sintonizan cada uno de los hiperparámetros. Utilizaremos gráficas diagnósticas para evaluar el efecto de la sintonización de hiperparámetros y, en particular, un enfoque en la pérdida, donde debe tenerse en cuenta que el módulo que utilizamos para trazar la pérdida es matplotlib.pyplot, por lo que se escala el eje. Esto puede significar que las diferencias significativas pueden parecer no significativas o viceversa al comparar la pérdida de los datos de entrenamiento o prueba. Además se presentan algunas libertades para andamios, como el uso de Épocas primero (casi como una técnica de regularización) manteniendo el tamaño del lote constante. Idealmente estos se sintonizarían juntos, pero para esta conferencia están separados.
Esquema
Duración (Min) | Descripción |
---|---|
5 | Visión general de los datos |
10 | Ajuste de capacidad y profundidad (ajuste por debajo y sobre) |
10 | Épocas (bajo y más entrenamiento) |
10 | Tamaños de lote (para supresión de ruido) |
10 | Funciones de activación (y sus efectos en el rendimiento — tiempo y precisión) |
10 | Tasas de aprendizaje (vanilla, LR Decay, Momentum, Adaptive) |
5 | Resumen del proceso de pase hacia adelante |
Reconocimientos
El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».