profe bien super activo con campanita! estoy entrando en este mundo. Quería agradecerle lo ordenado que tiene las play list en su canal. Quería preguntarle cual seria un orden apropiado el cual seguir los puntos y que conocimientos previos debería buscar antes de comenzar. Estudio ingeniería así que en la parte matemática no esta tan mal jeje! al menos tengo noción. saludos un abrazo
Hola Javier. Te sugiero comenzar con el playlist de "Introducción al Deep Learning", y seguir con "Conceptos básicos y algoritmos del Deep Learning" y "Deep learning: tutoriales básicos de programación". De ahí puedes seguir en el orden que quieras. Un saludo!
Estoy encantada con éste canal. Una duda: Osea que a medida que vayamos actualizando los pesos para minimizar el error es que se va construyendo esta función para llegar al mínimo?. Si el algoritmo del descenso del gradiente me busca el mínimo error para que necesitaría el algoritmo de back propagation?. Sorry por el cruce de conceptos. ¡Gracias!.
Hola!! Una duda, cuando dices en el min 6:16 "le voy a sumar en ultimas un pequeño valor" , ¿Que valor es el que le sumas? , otra duda, el alfa.Gradiente es una sola cosa? o es alfa por gradiente? Perdón por mi ignorancia , solo trato de entender. Espero me respondas , gracias
Alfa es la tasa de aprendizaje, que cómo dijo en el video es un parámetro que eliges, cuya función es determinar cómo de rápido se llega al mínimo, un alfa pequeño avanzará poco a poco, pero más "seguro", mientras que un alfa muy grande avanzará más rápido, pero te puedes pasar del mínimo más facilmente y entonces tendrías que hacer la iteración hacia atrás. Gradiente es la pendiente o derivada de la función, alfa.gradiente es la multiplicación de ambas cosas. El pequeño valor a sumar es precisamente alfa.gradiente
Saludos, tengo una consulta: ¿Es posible crear o aplicar el método de la gradiente para encontrar el mínimo y el máximo de una función polinomial?...Es decir dos resultados al mismo tiempo.....Gracias por la respuesta!!
Hola Marcelo. Depende: si tanto el máximo como el mínimo son únicos sí sería posible. De lo contrario el gradiente descendente se quedaría "estancado" o en un máximo local o en un mínimo local. Un saludo!
Hola Pedro. Depende del tipo de función que uses y del problema que estés intentando resolver. Idealmente, si defino de forma adecuada la función de error debería garantizar que existe un sólo mínimo local y por tanto no se tendrá ese problema. Revisa por ejemplo el video de la Regresión Logística, en donde hablo de una función de error en particular muy usada en estos casos (la entropía cruzada): th-cam.com/video/eHOHIgxRoHE/w-d-xo.html Un saludo!
Hola José, qué buena pregunta. Realmente esto depende de la función que se esté minimizando. En el video muestro una función parabólica la cual tiene precisamente un sólo mínimo. En el caso práctico del entrenamiento de una red neuronal la existencia de un mínimo local depende de la función de error que se use durante el entrenamiento. Por ejemplo, cuando se trata de clasificación binaria o multiclase la "entropía cruzada" es una función que matemáticamente tendrá un único mínimo. Así que si se usa esta función durante el entrenamiento se puede garantizar que el gradiente descendente encontrará tarde o temprano ese único mínimo. Un saludo!
El algoritmo puede quedar atrapado en un mínimo local si la función a minimizar es multimodal. Esto dependerá del punto inicial (initial guess) y de la tasa de aprendizaje definidos. Si la función es diferenciable y continua, es posible obtener el mínimo global a partir de la primera derivada de la función a minimizar, resolviendo x* para el cual se cumple que df(x)/dx = 0.
Hola Jonathan. Realmente el proceso de selección del learning rate es a prueba y error: se debe observar cómo el incremento o reducción de este parámetro afecta la convergencia del algoritmo (es decir si el error disminuye o se "estanca" en un punto determinado). En el video de "Programación del gradiente descendente en Python" (th-cam.com/video/m3vd3vi6a_s/w-d-xo.html) analizo más en detalle este aspecto. Un saludo!
🔥🔥Academia Online: codificandobits.com 🔥🔥
🔥🔥Asesorías y formación personalizada: codificandobits.com/servicios 🔥🔥
Lo máximo, muchas gracias por el aporte. Saludos desde mi tierra inca
Deberías tener al menos un millón de suscriptores
Para allá vamos Carlos, muy seguramente el canal va a seguir creciendo! Saludos! 😉
Excelente explicación. Muchas gracias
¡Qué buena explicación! Gracias :-)
muchas gracias por el video.
Deberías tener más visitas! Todo muy bien explicado
excelente expliacion, gracias por tu tiempo en desarrollarlo.
Excelente la manera de explicarlo
Excelente explicación. Muchas gracias!!!!!!!!!!!
Gracias a ti por tu comentario! Saludos!!!
exelente explicación muchas gracias!!
wow exceltente explicacion soy lenta de aprender pero realmente ayudas un monton!
😄😄 qué bueno saber que ayudó! Espero que encuentres útil todo el contenido del canal. Un saludo!
@@codificandobits sii gracias, y hasta el 2024 sigues ayudando
profe bien super activo con campanita! estoy entrando en este mundo. Quería agradecerle lo ordenado que tiene las play list en su canal. Quería preguntarle cual seria un orden apropiado el cual seguir los puntos y que conocimientos previos debería buscar antes de comenzar. Estudio ingeniería así que en la parte matemática no esta tan mal jeje! al menos tengo noción. saludos un abrazo
Hola Javier. Te sugiero comenzar con el playlist de "Introducción al Deep Learning", y seguir con "Conceptos básicos y algoritmos del Deep Learning" y "Deep learning: tutoriales básicos de programación". De ahí puedes seguir en el orden que quieras. Un saludo!
Estoy encantada con éste canal. Una duda: Osea que a medida que vayamos actualizando los pesos para minimizar el error es que se va construyendo esta función para llegar al mínimo?. Si el algoritmo del descenso del gradiente me busca el mínimo error para que necesitaría el algoritmo de back propagation?. Sorry por el cruce de conceptos. ¡Gracias!.
Gran explicación!
excelente muchas gracias por la explicacion la mejor que he encontrado, claro que para mas dimensiones buenoooooo :(
Qué bueno que te haya gustado. Esa es la idea del canal, poner a su disposición contenido de buena calidad. Un saludo!
Hola!!
Una duda, cuando dices en el min 6:16 "le voy a sumar en ultimas un pequeño valor" , ¿Que valor es el que le sumas? , otra duda, el alfa.Gradiente es una sola cosa? o es alfa por gradiente? Perdón por mi ignorancia , solo trato de entender.
Espero me respondas , gracias
Alfa es la tasa de aprendizaje, que cómo dijo en el video es un parámetro que eliges, cuya función es determinar cómo de rápido se llega al mínimo, un alfa pequeño avanzará poco a poco, pero más "seguro", mientras que un alfa muy grande avanzará más rápido, pero te puedes pasar del mínimo más facilmente y entonces tendrías que hacer la iteración hacia atrás.
Gradiente es la pendiente o derivada de la función, alfa.gradiente es la multiplicación de ambas cosas.
El pequeño valor a sumar es precisamente alfa.gradiente
Saludos, tengo una consulta: ¿Es posible crear o aplicar el método de la gradiente para encontrar el mínimo y el máximo de una función polinomial?...Es decir dos resultados al mismo tiempo.....Gracias por la respuesta!!
Hola Marcelo. Depende: si tanto el máximo como el mínimo son únicos sí sería posible. De lo contrario el gradiente descendente se quedaría "estancado" o en un máximo local o en un mínimo local. Un saludo!
Excelente contenido
😉
alguno sabe que pasa si igualo la funcion de costo a 0
Pero una pregunta, esta función no se queda estancada en mínimos locales?
Hola Pedro. Depende del tipo de función que uses y del problema que estés intentando resolver.
Idealmente, si defino de forma adecuada la función de error debería garantizar que existe un sólo mínimo local y por tanto no se tendrá ese problema. Revisa por ejemplo el video de la Regresión Logística, en donde hablo de una función de error en particular muy usada en estos casos (la entropía cruzada): th-cam.com/video/eHOHIgxRoHE/w-d-xo.html
Un saludo!
Sí, se queda estancada en los mínimos locales
Como puedo saber si el algoritmo encontró el mínimo global y no un mínimo local?
Hola José, qué buena pregunta. Realmente esto depende de la función que se esté minimizando. En el video muestro una función parabólica la cual tiene precisamente un sólo mínimo.
En el caso práctico del entrenamiento de una red neuronal la existencia de un mínimo local depende de la función de error que se use durante el entrenamiento. Por ejemplo, cuando se trata de clasificación binaria o multiclase la "entropía cruzada" es una función que matemáticamente tendrá un único mínimo. Así que si se usa esta función durante el entrenamiento se puede garantizar que el gradiente descendente encontrará tarde o temprano ese único mínimo.
Un saludo!
El algoritmo puede quedar atrapado en un mínimo local si la función a minimizar es multimodal. Esto dependerá del punto inicial (initial guess) y de la tasa de aprendizaje definidos. Si la función es diferenciable y continua, es posible obtener el mínimo global a partir de la primera derivada de la función a minimizar, resolviendo x* para el cual se cumple que df(x)/dx = 0.
No mencionaste cómo definir el Learning Rate 🤔
Hola Jonathan. Realmente el proceso de selección del learning rate es a prueba y error: se debe observar cómo el incremento o reducción de este parámetro afecta la convergencia del algoritmo (es decir si el error disminuye o se "estanca" en un punto determinado).
En el video de "Programación del gradiente descendente en Python" (th-cam.com/video/m3vd3vi6a_s/w-d-xo.html) analizo más en detalle este aspecto.
Un saludo!
la peor explicacion que habia escuchado