Muchas gracias Pepe un excelente video!!. Al momento de realizar retro propagación se debe realizar las derivadas de la normalización de entrada del BathNormalization.
Hola Pepe. Excelente video, me encanta tu contenido. Te quería hacer una consulta: Como se relaciona batch normalization con el fenómeno de exploding gradient?
No vengo a pedir ayuda con mi entrenamiento en sí, solo haré un par de preguntas al respecto. Estoy usando BatchNorm1d para una Fully Convolutional Neural Network para predecir una propiedad a partir de un espectro infrarrojo de más de 1000 columnas. Creo haberlo usado bien, pero, al tener pocos ejemplos de entrenamiento (unos 315), el r-cuadrado llega a .99 a las 500 épocas más o menos y en test no da lo mejor, por el 0.88-0.90. Esto no cambia si reduzco la complejidad de la red, pero en un punto de reducción en adelante se queda atascado en 0.78 en train. Mi pregunta es, ¿Es la red convolucional útil solo si se tienen muchos ejemplos de entrenamiento? Otra es, ¿El batch debe ser del tamaño de la salida de la capa convolucional o no?
Excelente video y muy bien la explicación
Muchas gracias! Muchos saludos!
Muchas gracias Pepe un excelente video!!. Al momento de realizar retro propagación se debe realizar las derivadas de la normalización de entrada del BathNormalization.
Hola Pepe. Excelente video, me encanta tu contenido. Te quería hacer una consulta: Como se relaciona batch normalization con el fenómeno de exploding gradient?
Que buena explicacion, me gusto mucho gracias!!!
Muchas gracias! Saludos!
No vengo a pedir ayuda con mi entrenamiento en sí, solo haré un par de preguntas al respecto. Estoy usando BatchNorm1d para una Fully Convolutional Neural Network para predecir una propiedad a partir de un espectro infrarrojo de más de 1000 columnas. Creo haberlo usado bien, pero, al tener pocos ejemplos de entrenamiento (unos 315), el r-cuadrado llega a .99 a las 500 épocas más o menos y en test no da lo mejor, por el 0.88-0.90. Esto no cambia si reduzco la complejidad de la red, pero en un punto de reducción en adelante se queda atascado en 0.78 en train. Mi pregunta es, ¿Es la red convolucional útil solo si se tienen muchos ejemplos de entrenamiento?
Otra es, ¿El batch debe ser del tamaño de la salida de la capa convolucional o no?