ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
听君十分钟,胜读一本书啊。讲得非常棒。中间说得学习率调整因子,直觉上感觉也很合理。按照这种设置,可以将各特征维度映射调整成变化率大致一样的新特征。
淺簡易懂的數學解釋得很清楚希望可以出一期講解 BERT 的影片
adagrad的部分:在单个参数的更新过程中,η下面的调整分母其实就是个动态scaler,用平方再开方的方式来去掉方向,仅用数值表示过去梯度的一个总体规模
優質好片,感謝。關於平方再開方的目的:取正整數。統計學標準差有用這個技巧。用在這裡是希望只取長度不取方向性,方向性由當前的梯度決定。
来自bilibili该视频下 Hot_bird 的评论:我觉得不应该解释成先平方再开方,应该解释成梯度的内积开方,学习到的梯度是真实梯度除以梯度内积的开方。adagrad本质是解决各方向导数数值量级的不一致而将梯度数值归一化
听完了,很棒,涵盖了基本的优化方法
對我幫助很大 感謝你的教學
非常了不起。這一系列的影片,其實可以寫成書「直觀理解深度學習 Deep Learning: An Intuitive Approach」,肯定大賣!
讲得太好了,狂点like十下!对于25:00左右为什么是先平方再开方的问题,我觉得adagrad的目的并不是像作者说的那样,根据历史上斜率的变化而适应学习率。这样平方再开方的话确实说不通。毕竟sqrt(x^2) = sqrt((-x)^2)。但是如果从解决维度间数量级差异的角度来看的话就说得通了(就是每个维度各自normalize by RMS嘛)。另外我觉得作者24:32开始展示的那段式子写法可能引起误会。W.W那里应该不是点乘,而是element-wise product。这样得出的学习率应该是一个向量(而不是标量或矩阵)。同样地,学习率乘斜率那里也应该是element-wise product。达成的效果就是斜率的每个维度各自除一个对应本维度的RMS。没深入学过adagrad只是看了几个教程。说得不对的地方欢迎指正!
讲的太好了!!!
讲的非常好👍感谢
感謝你拯救了看不懂原文書的我!
高维的物体的体积是无穷小, 所以宇宙刚开始是一个高维的点, 后来维度减少,体积膨胀, 才是现在的样子
你那个和方根是早期提出的,后来因高纬度矩阵运算大,不实际,用diag替代了
講得太好了!
大神,太厉害了
哇!讲得很好!!!!
超棒的
動量法 adam
听君十分钟,胜读一本书啊。讲得非常棒。中间说得学习率调整因子,直觉上感觉也很合理。按照这种设置,可以将各特征维度映射调整成变化率大致一样的新特征。
淺簡易懂的數學解釋得很清楚
希望可以出一期講解 BERT 的影片
adagrad的部分:在单个参数的更新过程中,η下面的调整分母其实就是个动态scaler,用平方再开方的方式来去掉方向,仅用数值表示过去梯度的一个总体规模
優質好片,感謝。關於平方再開方的目的:取正整數。統計學標準差有用這個技巧。用在這裡是希望只取長度不取方向性,方向性由當前的梯度決定。
来自bilibili该视频下 Hot_bird 的评论:我觉得不应该解释成先平方再开方,应该解释成梯度的内积开方,学习到的梯度是真实梯度除以梯度内积的开方。adagrad本质是解决各方向导数数值量级的不一致而将梯度数值归一化
听完了,很棒,涵盖了基本的优化方法
對我幫助很大 感謝你的教學
非常了不起。這一系列的影片,其實可以寫成書「直觀理解深度學習 Deep Learning: An Intuitive Approach」,肯定大賣!
讲得太好了,狂点like十下!
对于25:00左右为什么是先平方再开方的问题,我觉得adagrad的目的并不是像作者说的那样,根据历史上斜率的变化而适应学习率。这样平方再开方的话确实说不通。毕竟sqrt(x^2) = sqrt((-x)^2)。
但是如果从解决维度间数量级差异的角度来看的话就说得通了(就是每个维度各自normalize by RMS嘛)。
另外我觉得作者24:32开始展示的那段式子写法可能引起误会。W.W那里应该不是点乘,而是element-wise product。这样得出的学习率应该是一个向量(而不是标量或矩阵)。同样地,学习率乘斜率那里也应该是element-wise product。达成的效果就是斜率的每个维度各自除一个对应本维度的RMS。
没深入学过adagrad只是看了几个教程。说得不对的地方欢迎指正!
讲的太好了!!!
讲的非常好👍感谢
感謝你拯救了看不懂原文書的我!
高维的物体的体积是无穷小, 所以宇宙刚开始是一个高维的点, 后来维度减少,体积膨胀, 才是现在的样子
你那个和方根是早期提出的,后来因高纬度矩阵运算大,不实际,用diag替代了
講得太好了!
大神,太厉害了
哇!讲得很好!!!!
超棒的
動量法 adam