После того как день потратил на backpropagation с матрицами, картинка с Гарольдом, скрывающим боль, очень доставила хD. А про really cool вообще под стол упал xDxD
Стоит пояснить, что за функция random в инициализации весов методом Xavier. Веса должны быть нормально распределены с мат ожиданием 0 и дисперсией 2/(in_num+out_num)
Где почитать про то, что df/dw = X.T * df/da ? Мне в тензорное исчисление? В матричном максимум что нашел, так это производная вектора по матрице, но не производную матрицы по матрице. Это на 20:11 показывается на пальцах, а источников не дают.
На 21:40 минуте W транспонировать надо, а не градиент, чтобы в результате матрицу размером 2x1 получить. ... А, сорри, 8 секунд позже преподаватель исправил.
как запомнить строку и столбец. Мы пишем \и читаем\ построчно а когда не хватает места переходим на новую строку формируя столбцы. Строка первична а столбец вторичен.
Хорошая визуализация, прибавило понимания. Благодарю
you know - it's really cool :D
После того как день потратил на backpropagation с матрицами, картинка с Гарольдом, скрывающим боль, очень доставила хD. А про really cool вообще под стол упал xDxD
Интересно, спасибо
Стоит пояснить, что за функция random в инициализации весов методом Xavier. Веса должны быть нормально распределены с мат ожиданием 0 и дисперсией 2/(in_num+out_num)
А есть где-нибудь задания, которые выполняли студенты курса? Хотелось бы пощелкать
Мнемоника - класс :)
лектор такой милашка ! : З
37 минута
задача про носы и глаза
то есть на выходе мы не применяем ни сигмоиду ни софтмакс, а функция активации такая же ReLU?
в Adam velocity преобразуется на основе предыдущего значения. а какое у него значение изначально?
разобрался, изначально это 0
1:10:58 - Обновление параметров
Вот бы лекцию про distribute training !
reg_loss это regularization loss, а не regression.
А вообще спасибо за лекции, реально "на пальцах" :)
Где почитать про то, что df/dw = X.T * df/da ? Мне в тензорное исчисление? В матричном максимум что нашел, так это производная вектора по матрице, но не производную матрицы по матрице. Это на 20:11 показывается на пальцах, а источников не дают.
Первая ссылка в гугле по запросу "backpropagation for a linear layer justin johnson"
А если я хочу найти неизвестное количество носиков ?
Ну звучит вроде попроще чем прошлый раз. Но это я еще домашку не глядел.
Думаешь, что всё понятно и отлично "заходит"... до тех пор пока домашку не открываешь =)))
Вроде Керас популярнее)
Что в продакшене используется?
Tensorflow
torchscript
На 21:40 минуте W транспонировать надо, а не градиент, чтобы в результате матрицу размером 2x1 получить.
... А, сорри, 8 секунд позже преподаватель исправил.
как запомнить строку и столбец. Мы пишем \и читаем\ построчно а когда не хватает места переходим на новую строку формируя столбцы. Строка первична а столбец вторичен.