Estos videos son oro puro. Muy pocas personas, en especial en español, se atreven a explicar el transfondo matemático de las redes neuronales. Soy de las personas que les gusta entender el "por qué" y no solo el "cómo usar tal framework"
De verdad, muchísimas gracias por tu comentario. Desde el principio del canal, esa fue uno de los objetivos, tratar de crear al menos una intuición tanto matemática como computacional del por qué algo funciona. Muchísimas gracias y muchos saludos!
Esta es una clase magistral, sigo sorprendido de encontrar contenido de esta gama en TH-cam. La matemática esta excelentemente detallada y explicada, ademas logras darle todo el sentido de calculo a la manera en que se obtiene la derivada de la función de perdidas con respecto a las entradas que llegan a la función Softmax. De verdad agradecido por el contenido, espero poder llegar al final de esta serie y encontrarme con nuevo contenido del canal
Ahi queda claro la conveniencia de la definición de la función Softmax y Costo con funciones exponenciales y logarítmicas. Al calcular el gradiente se llega a una simplificación que tiene muchas ventajas computacionales. Excelente explicación!
Sigo con esta maratón de 53 videos! 10/53 vistos. Este video me explotó un poco la cabeza, creo que es el punto más álgido en entender redes neuronales, si pasás este punto lo que sigue es cuesta abajo. Saludos!
Me da tanto gusto que estés encontrado útiles los videos, espero vayas bien con el maratón o lo hayas terminado! Agradezco mucho tu comprensión en el tiempo que tomo para responder los comentarios, pero de verdad los leo todos y te agradezco mucho tu tiempo para escribirlos! Muchos saludos!
Buenas Pepe, muy buen video pero me surge una duda, al final, en el minuto 20:59 terminas diciendo que dL/dz = Y'k - Y No veo porque dices que k=i, al final z es un vector y mi intuición me dice que dL/dz sería Y'k - Y para k=i y para el resto de casos Y'i quedando así el vector dL/dz = (Y'1, ... , Y'k - Y, ..., Y'n) se entiende mi punto? Si no es así te agradecería si me lo aclarases, un saludo 👍
hola, por qué luego de aplicar softmax dejas solo una clase con max probabilidad 1 y el resto 0? tenía entendido que softmax distribuye la probabilidad, y que luego de eso se selecciona el máximo, ¿por qué es mejor considerar solo una clase? ¿no es relevante para la loss lo que ocurra con las prob de las otras clases? saludos, gracias
sobre lo de ¿no es relevante para la loss lo que ocurra con las prob de las otras clases?, en este caso particular que la funcion loss es x entropy y termina considerando solo la prob de la clase que tenga probabilidad de 1 porque en la sumatoria todos los terminos menos uno se terminan llendo a 0 porque se multiplican por 0, que es la entrada del hot vector correspondiente, pero con por ejemplo otra funcion loss popular como es MAE, si termina considerando todas las prob, ahi algo que no se y dejo la duda es como saber escoger la funcion loss de acuerdo al problema, pero bueno, eso ya es otro tema
@@BusyBlueLion para aportar mi granito de arena respecto a función de loss: en la última capa normalmente se escoge sigmoid si es clasificación binaria; softmax, si es clasificación de más de dos clases; y linear, para predicción de valores que pueden ser negativos o positivos (como precios, medidas, o valores escalares en general)
Estos videos son oro puro. Muy pocas personas, en especial en español, se atreven a explicar el transfondo matemático de las redes neuronales. Soy de las personas que les gusta entender el "por qué" y no solo el "cómo usar tal framework"
De verdad, muchísimas gracias por tu comentario. Desde el principio del canal, esa fue uno de los objetivos, tratar de crear al menos una intuición tanto matemática como computacional del por qué algo funciona. Muchísimas gracias y muchos saludos!
Esta es una clase magistral, sigo sorprendido de encontrar contenido de esta gama en TH-cam. La matemática esta excelentemente detallada y explicada, ademas logras darle todo el sentido de calculo a la manera en que se obtiene la derivada de la función de perdidas con respecto a las entradas que llegan a la función Softmax. De verdad agradecido por el contenido, espero poder llegar al final de esta serie y encontrarme con nuevo contenido del canal
Sos un Crack, trataba de hacer esa derivada pero no se me daba, gracias por enseñarme estas cosas que son interesantes
Me encantan... mil gracias!
Ahi queda claro la conveniencia de la definición de la función Softmax y Costo con funciones exponenciales y logarítmicas. Al calcular el gradiente se llega a una simplificación que tiene muchas ventajas computacionales. Excelente explicación!
Excelente video, muchisimas gracias por tu servicio a la comunidad!
muy buena explicación, se me aclaró hasta lo que pensé que ya tenía claro
Muchas gracias por tu comentario! Me motiva mucho a continuar publicando videos de este importante tema. Saludos.
Sigo con esta maratón de 53 videos!
10/53 vistos. Este video me explotó un poco la cabeza, creo que es el punto más álgido en entender redes neuronales, si pasás este punto lo que sigue es cuesta abajo. Saludos!
Me da tanto gusto que estés encontrado útiles los videos, espero vayas bien con el maratón o lo hayas terminado! Agradezco mucho tu comprensión en el tiempo que tomo para responder los comentarios, pero de verdad los leo todos y te agradezco mucho tu tiempo para escribirlos! Muchos saludos!
que buen vide, ere muy bueno explicando, felicidades
Muchas gracias por tu comentario, me motiva muchíImo para seguir! Saludos!
muchas gracias! deberías tener mas subs, aqui te dejo uno
Muchas gracias! Agradezco tu comentario, me motiva a continuar compartiendo este apasionante tema. Saludos!
Buenas Pepe, muy buen video pero me surge una duda, al final, en el minuto 20:59 terminas diciendo que dL/dz = Y'k - Y No veo porque dices que k=i, al final z es un vector y mi intuición me dice que dL/dz sería Y'k - Y para k=i y para el resto de casos Y'i quedando así el vector dL/dz = (Y'1, ... , Y'k - Y, ..., Y'n) se entiende mi punto? Si no es así te agradecería si me lo aclarases, un saludo 👍
Gracias por las matemáticas, la mayoria salta este tema y sólo muestra las ecuaciones de forma superficial.
Sos un crack🦾
Muchas gracias!
Buen video pero no entendí. Tendré que volverlo a ver.
hola, por qué luego de aplicar softmax dejas solo una clase con max probabilidad 1 y el resto 0? tenía entendido que softmax distribuye la probabilidad, y que luego de eso se selecciona el máximo, ¿por qué es mejor considerar solo una clase? ¿no es relevante para la loss lo que ocurra con las prob de las otras clases? saludos, gracias
sobre lo de ¿no es relevante para la loss lo que ocurra con las prob de las otras clases?, en este caso particular que la funcion loss es x entropy y termina considerando solo la prob de la clase que tenga probabilidad de 1 porque en la sumatoria todos los terminos menos uno se terminan llendo a 0 porque se multiplican por 0, que es la entrada del hot vector correspondiente, pero con por ejemplo otra funcion loss popular como es MAE, si termina considerando todas las prob, ahi algo que no se y dejo la duda es como saber escoger la funcion loss de acuerdo al problema, pero bueno, eso ya es otro tema
@@BusyBlueLion para aportar mi granito de arena respecto a función de loss: en la última capa normalmente se escoge sigmoid si es clasificación binaria; softmax, si es clasificación de más de dos clases; y linear, para predicción de valores que pueden ser negativos o positivos (como precios, medidas, o valores escalares en general)
Mi cerebro no está cerebreando