[esta página en wiki][índice][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Conferencia: Sintonización de hiperparámetros

Información administrativa

Título Sintonización de hiperparámetros
Duración 60
Módulo B
Tipo de lección Conferencia
Enfoque Técnico — Aprendizaje profundo
Tema Sintonización de hiperparámetros

Keywords

Ajuste de hiperparámetros, funciones de activación, pérdida, épocas, tamaño del lote,

Objetivos de aprendizaje

Preparación prevista

Obligatorio para los estudiantes

Ninguno.

Opcional para estudiantes

Ninguno.

Referencias y antecedentes para estudiantes

  • John D Kelleher y Brain McNamee. (2018), Fundamentos del aprendizaje automático para análisis de datos predictivos, MIT Press.
  • Michael Nielsen. (2015), Redes neuronales y aprendizaje profundo, 1. Prensa de determinación, San Francisco CA USA.
  • Charu C. Aggarwal. (2018), Redes neuronales y aprendizaje profundo, 1. Springer
  • Antonio Gulli, Sujit Pal. Aprendizaje profundo con Keras, Packt, [ISBN: 9781787128422].

Recomendado para profesores

Ninguno.

Material didáctico

Instrucciones para profesores

Esta conferencia presentará a los estudiantes los fundamentos de la sintonización de hiperparámetros. Utilizaremos el conjunto de datos del censo como ejemplos del uso y los resultados de la sintonización de varios hipérómetros. El conjunto de datos del Censo de Adultos es un problema de clasificación binaria. Más información sobre este conjunto de datos en el tutorial correspondiente. El objetivo de esta conferencia es introducir varios hiperparámetros con ejemplos de cómo modificar estos hiperparámetros puede ayudar u obstaculizar el aprendizaje. Además, proporcionamos ejemplos de mejoras por debajo y sobreajuste, nariz y rendimiento (tiempo de entrenamiento y, en algunos casos, precisión/pérdida) cuando se sintonizan cada uno de los hiperparámetros. Utilizaremos gráficas diagnósticas para evaluar el efecto de la sintonización de hiperparámetros y, en particular, un enfoque en la pérdida, donde debe tenerse en cuenta que el módulo que utilizamos para trazar la pérdida es matplotlib.pyplot, por lo que se escala el eje. Esto puede significar que las diferencias significativas pueden parecer no significativas o viceversa al comparar la pérdida de los datos de entrenamiento o prueba. Además se presentan algunas libertades para andamios, como el uso de Épocas primero (casi como una técnica de regularización) manteniendo el tamaño del lote constante. Idealmente estos se sintonizarían juntos, pero para esta conferencia están separados.

Esquema

Hpt.png
Horario
Duración (Min) Descripción
5 Visión general de los datos
10 Ajuste de capacidad y profundidad (ajuste por debajo y sobre)
10 Épocas (bajo y más entrenamiento)
10 Tamaños de lote (para supresión de ruido)
10 Funciones de activación (y sus efectos en el rendimiento — tiempo y precisión)
10 Tasas de aprendizaje (vanilla, LR Decay, Momentum, Adaptive)
5 Resumen del proceso de pase hacia adelante

Reconocimientos

El programa de maestría en IA centrada en el ser humano fue cofinanciado por el Mecanismo «Conectar Europa» de la Unión Europea en virtud de la subvención «CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068».