“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”,打包理解对梯度下降法的优化

แชร์
ฝัง
  • เผยแพร่เมื่อ 23 ธ.ค. 2024

ความคิดเห็น • 19

  • @wangljangjun
    @wangljangjun ปีที่แล้ว

    听君十分钟,胜读一本书啊。讲得非常棒。中间说得学习率调整因子,直觉上感觉也很合理。按照这种设置,可以将各特征维度映射调整成变化率大致一样的新特征。

  • @leowang11
    @leowang11 3 ปีที่แล้ว +5

    淺簡易懂的數學解釋得很清楚
    希望可以出一期講解 BERT 的影片

  • @ethany45
    @ethany45 2 หลายเดือนก่อน

    adagrad的部分:在单个参数的更新过程中,η下面的调整分母其实就是个动态scaler,用平方再开方的方式来去掉方向,仅用数值表示过去梯度的一个总体规模

  • @yeee7059
    @yeee7059 7 หลายเดือนก่อน

    優質好片,感謝。關於平方再開方的目的:取正整數。統計學標準差有用這個技巧。用在這裡是希望只取長度不取方向性,方向性由當前的梯度決定。

  • @zichenwang8068
    @zichenwang8068 2 ปีที่แล้ว +1

    来自bilibili该视频下 Hot_bird 的评论:我觉得不应该解释成先平方再开方,应该解释成梯度的内积开方,学习到的梯度是真实梯度除以梯度内积的开方。adagrad本质是解决各方向导数数值量级的不一致而将梯度数值归一化

  • @swing4335
    @swing4335 3 ปีที่แล้ว

    听完了,很棒,涵盖了基本的优化方法

  • @林家誠-o1g
    @林家誠-o1g 2 ปีที่แล้ว

    對我幫助很大 感謝你的教學

  • @ztc106
    @ztc106 3 ปีที่แล้ว +4

    非常了不起。這一系列的影片,其實可以寫成書「直觀理解深度學習 Deep Learning: An Intuitive Approach」,肯定大賣!

  • @cabbagecat9612
    @cabbagecat9612 ปีที่แล้ว

    讲得太好了,狂点like十下!
    对于25:00左右为什么是先平方再开方的问题,我觉得adagrad的目的并不是像作者说的那样,根据历史上斜率的变化而适应学习率。这样平方再开方的话确实说不通。毕竟sqrt(x^2) = sqrt((-x)^2)。
    但是如果从解决维度间数量级差异的角度来看的话就说得通了(就是每个维度各自normalize by RMS嘛)。
    另外我觉得作者24:32开始展示的那段式子写法可能引起误会。W.W那里应该不是点乘,而是element-wise product。这样得出的学习率应该是一个向量(而不是标量或矩阵)。同样地,学习率乘斜率那里也应该是element-wise product。达成的效果就是斜率的每个维度各自除一个对应本维度的RMS。
    没深入学过adagrad只是看了几个教程。说得不对的地方欢迎指正!

  • @yuhao8430
    @yuhao8430 ปีที่แล้ว

    讲的太好了!!!

  • @siyuanxiang1636
    @siyuanxiang1636 2 ปีที่แล้ว

    讲的非常好👍感谢

  • @華-f8k
    @華-f8k 2 ปีที่แล้ว

    感謝你拯救了看不懂原文書的我!

  • @gaidou1941
    @gaidou1941 3 ปีที่แล้ว +1

    高维的物体的体积是无穷小, 所以宇宙刚开始是一个高维的点, 后来维度减少,体积膨胀, 才是现在的样子

  • @anonymous1943
    @anonymous1943 3 ปีที่แล้ว

    你那个和方根是早期提出的,后来因高纬度矩阵运算大,不实际,用diag替代了

  • @woodywan4010
    @woodywan4010 2 ปีที่แล้ว

    講得太好了!

  • @buzailunhui
    @buzailunhui ปีที่แล้ว

    大神,太厉害了

  • @genlinlin887
    @genlinlin887 2 ปีที่แล้ว

    哇!讲得很好!!!!

  • @chiaominchang
    @chiaominchang 7 หลายเดือนก่อน

    超棒的

  • @linHsinHsiang
    @linHsinHsiang ปีที่แล้ว

    動量法 adam