Sigo con esta maratón de 53 videos! 9/53 vistos. Muchas gracias Pepe! Volví recargado luego de 4 meses, a seguir con esta maratón. Clarísimo todo, lo hacés taaan fácil!
Pepe, buen día desde Argentina. Soy Ingeniero Electrónico y me estoy metiendo de a poco en este mundo. Muchas gracias por tus aportes, hay muchos videos o recursos que se limitan a aplicar funciones y modelos sin explicar realmente que está pasando o cuales son los fundamentos detrás de cada concepto. Te agradezco nuevamente, saludos!
Muchísimas gracias por tu comentario y apoyo al canal! Yo también soy de formación Ing. Electrónica, pero llevo muchos años trabajando en Ciencias computacionales. Pienso que tener conocimientos de programación a bajo nivel por ejemplo C para embebidos, o VHDL/Verilog te permite implementar código en lenguajes de alto nivel como Python de forma mucho más eficiente. Muchos saludos y de nuevo muchas gracias por tu comentario. Muchos saludos!
aqui 15:19 , ¿porque usas la notación tradicional y no la de derivada parcial ? veo que se trata de una función con varias variables. Es decir el nodo es igual al producto entre w y z + b. Aqui hay mas de una variable. ¿en este caso no seria mejor usar la notación de derivada parcial porque se trata de varias variables? ¿porque decias que se trata de una sola variable? ¿que sucede con b y w, son 2 variables?
Hola, una pregunta, para el algoritmo, según la red neuronal que utiliza, no está aplicando la función de activación a la suma ponderada de cada neurona (que sería Z--fn-->A) y según he visto en otros videos, aplicar la función de activación implica otro gradiente de J respecto a A y ya no sería de J respecto a Z ?
Hola Brandon! Muchas gracias por tu pregunta. Tienes toda la razón, se debe aplicar una función de activación no lineal (ReLU, leaky ReLU, sigmoid, por ejemplo) después de la transformación lineal (por cada capa). Sin embargo, en este video aún no presento funciones de activación y mi intención es explicar qué es "backpropagation" sin necesidad de saber qué son las funciones de activación. Esta liga th-cam.com/video/ftlqZwb33SE/w-d-xo.html debe llevarte a la lista completa de videos de la serie, este video es el video 9 de la serie, en el video 12 presento el tema de funciones de activación (th-cam.com/video/IdlYuBKeFXo/w-d-xo.html) donde explico la necesidad de utilizar esta funciones no lineales, En particular te invito a ver el video 13 (th-cam.com/video/Xc2Gsx2DkJA/w-d-xo.html) donde presento como crear una red neuronal multicapa ya considerando funciones de activación, incluyendo el gradiente con respecto a las mismas como tu comentas (dJ/dA). Asimismo, en los videos de programación, muestro como programar desde cero (sólo Python) los gradientes de la función de Costo con respecto a todas los puntos requeridos, incluyendo funciones de activación. A partir del video 14 son videos de código, y en la siguiente liga está el primer video de una red neuronal completa de dos capas th-cam.com/video/W5HJKWL2i08/w-d-xo.html. También tengo un video donde explico cómo inicializar los parámetros de la red (th-cam.com/video/hFa6sYJnTfs/w-d-xo.html), y cómo crear una red neuronal multicapa creado tus propios objetos de capas sin utilizar frameworks th-cam.com/video/_shpKyA89QQ/w-d-xo.html Con estos fundamentos, en mi siguiente video, empezaré a utilizar PyTorch para crear arquitecturas más complejas. Muchas gracias por tu comentario, espero haber contestado tu pregunta.
Excelente explicación! Debería tener 137k likes
Muchas gracias!
Sigo con esta maratón de 53 videos!
9/53 vistos. Muchas gracias Pepe! Volví recargado luego de 4 meses, a seguir con esta maratón. Clarísimo todo, lo hacés taaan fácil!
@SRV900, de verdad muchas gracias por tu comentario y por el apoyo al canal! Muchos saludos!
Pepe, buen día desde Argentina. Soy Ingeniero Electrónico y me estoy metiendo de a poco en este mundo. Muchas gracias por tus aportes, hay muchos videos o recursos que se limitan a aplicar funciones y modelos sin explicar realmente que está pasando o cuales son los fundamentos detrás de cada concepto.
Te agradezco nuevamente, saludos!
Muchísimas gracias por tu comentario y apoyo al canal! Yo también soy de formación Ing. Electrónica, pero llevo muchos años trabajando en Ciencias computacionales. Pienso que tener conocimientos de programación a bajo nivel por ejemplo C para embebidos, o VHDL/Verilog te permite implementar código en lenguajes de alto nivel como Python de forma mucho más eficiente. Muchos saludos y de nuevo muchas gracias por tu comentario. Muchos saludos!
Eres lo máximo
De verdad, muchísimas gracias por tu apoyo al canal y tu comentario! Muchos saludos!
aqui 15:19 , ¿porque usas la notación tradicional y no la de derivada parcial ? veo que se trata de una función con varias variables. Es decir el nodo es igual al producto entre w y z + b. Aqui hay mas de una variable. ¿en este caso no seria mejor usar la notación de derivada parcial porque se trata de varias variables? ¿porque decias que se trata de una sola variable? ¿que sucede con b y w, son 2 variables?
gracias profe
Muchas gracias por tu comentario y apoyo al canal! Muchos saludos!
Hola, una pregunta, para el algoritmo, según la red neuronal que utiliza, no está aplicando la función de activación a la suma ponderada de cada neurona (que sería Z--fn-->A) y según he visto en otros videos, aplicar la función de activación implica otro gradiente de J respecto a A y ya no sería de J respecto a Z ?
Hola Brandon! Muchas gracias por tu pregunta. Tienes toda la razón, se debe aplicar una función de activación no lineal (ReLU, leaky ReLU, sigmoid, por ejemplo) después de la transformación lineal (por cada capa).
Sin embargo, en este video aún no presento funciones de activación y mi intención es explicar qué es "backpropagation" sin necesidad de saber qué son las funciones de activación.
Esta liga th-cam.com/video/ftlqZwb33SE/w-d-xo.html debe llevarte a la lista completa de videos de la serie, este video es el video 9 de la serie, en el video 12 presento el tema de funciones de activación (th-cam.com/video/IdlYuBKeFXo/w-d-xo.html) donde explico la necesidad de utilizar esta funciones no lineales,
En particular te invito a ver el video 13 (th-cam.com/video/Xc2Gsx2DkJA/w-d-xo.html) donde presento como crear una red neuronal multicapa ya considerando funciones de activación, incluyendo el gradiente con respecto a las mismas como tu comentas (dJ/dA). Asimismo, en los videos de programación, muestro como programar desde cero (sólo Python) los gradientes de la función de Costo con respecto a todas los puntos requeridos, incluyendo funciones de activación. A partir del video 14 son videos de código, y en la siguiente liga está el primer video de una red neuronal completa de dos capas th-cam.com/video/W5HJKWL2i08/w-d-xo.html. También tengo un video donde explico cómo inicializar los parámetros de la red (th-cam.com/video/hFa6sYJnTfs/w-d-xo.html), y cómo crear una red neuronal multicapa creado tus propios objetos de capas sin utilizar frameworks th-cam.com/video/_shpKyA89QQ/w-d-xo.html
Con estos fundamentos, en mi siguiente video, empezaré a utilizar PyTorch para crear arquitecturas más complejas.
Muchas gracias por tu comentario, espero haber contestado tu pregunta.
@@PepeCantoralPhD Muchísimas gracias !
muy bien explicado !
gracias!
Muchos saludos! Hasta pronto!
Hola... Quisiera saber si me compartirias algún artículo relacionado a Descenso del gradiente.
Se nota mucho la diferencia entre la organización y precisión del contenido de éste vídeo en comparación con la parte 6.
arriba MNA ITESM
Muchas gracias!!!