ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
讲的很好,通俗易懂,调理清晰。图文并貌
感谢老师非常清楚且浅显易懂的教学只是最后一页提到的 mapreduce cost,学生认为 computation cost 应该直接涵盖于 synchronization 里,毕竟synchronization主要就是最慢的 computation cost
深入浅出,去繁就简,直指核心,必须点赞!!!
讲的真的是太好了!王老师,字正腔圆,清晰易懂,谁会不爱呢???!
偶然点开这个视频,花了十分钟居然听懂了mapreduce,感谢老师!
非常好,我是做ai芯片,讲了理论基础
推荐系统中当物品数量多embedding很大,但model其他部分并不大时,用什么distributed training技术比较好?
机器学习的宝藏。谢谢分享。
干练清晰明了,讲得太好了👍👍👍
干货满满,给你点赞
真不知道说啥了,这些课程太好了!我要向您学习!
真正的牛人!
王老师我想请教一下,为什么Loss function只是把所有样本的误差加起来而不求一个平均呢,如果不求的话损失不是会随着样本的增加而无限制增加嘛。不求平均是因为我们平时在实际应用的情况中确定了batch size所以不需要求吗?
王老师太赞了
很好的课程
老师讲得太强了!
谢谢王老师
太棒了!一直在想梯度是什么意思!您一讲我就听懂了……
有没有deeplearning的系列,老师讲的太好了
老师讲的很好!谢谢您!《入侵检测,使用机器学习算法分析网络和系统安全威胁》这个题目有材料或资料吗?
太棒了
期待更新更多视频
讲的真好!
感谢您~!
marvelous video!
王老师您好,想请教一下 worker node里共享内存的processor ,跟我们平时说的cluster的worker node可以划分为多个executor是同一个概念吗?
不太一样。处理器是机器本身的。executor数量是人为定的,可以任意。
非常好的内容!老师能讲一下为什么你不推荐Spark这类MapReduce的系统做ML?视频里面留了一个flag但是我没有找到 谢谢!
这些系统需要synchronization。只有几个节点的时候没问题。但是当节点多的时候,synchronization的代价很大。比实际的时间的话,同步算法总是比异步慢很多。
不知当问不当问,为什么Loss Function中有1/2呢?我理解是此处常数是多少不影响,只是为了在求导得梯度时可以与2相乘抵消掉。
是的。系数无所谓,会被learning rate吸收掉。
@@ShusenWang 谢谢王老师!
NLP研究生在读 期待您更多的视频
太强了!
赞👍
王老师,可以推荐一些分布式机器学习应用的paper吗?
现在已经不是很热门的领域了,了解一下就好,不建议深挖
@@ShusenWang 请问王老师最近这个领域哪个方向较热啊。还是都比较卷
@@jiutianyu3592 不太建议做这个方向。low-hanging fruits都被摘完了
@@ShusenWang 王老师 那现在哪个方向比较好
@@ShusenWang 但是看最近出了很多pipeline并行,tensor并行的方法
博主了解automl吗?可以讲一些关于automl最新的研究方向和进展吗?感谢。
我打算讲 neural architecture search,但是暂时没时间录。
@@ShusenWang 期待!
语气变温柔了
w* = argminL(w) 吧。
是的。我写错了。多谢!
cool!
深入浅出,复杂的理论听着像王刚炒菜那么简单
这里的 x 应该是 R^{dx1}而不是 R^d 吧
嗯,其实是一个意思
稳!
有这个课程的PPT可以共享吗
PDF文件都在这: github.com/wangshusen/DeepLearning
@@ShusenWang 谢谢
@@ShusenWang 博主有什么ins、推特之类的社交账号嘛,可以关注一下
@@jamesguo1344 他有小红书
4:00 f(x)=x^T w是不是应该写成f(x)=w x^T
不是的。向量是列向量,x^T w 是实数,而你说的 w x^T 是矩阵。
@@ShusenWang 哦哦好的,谢谢!
@@ShusenWang 我学校老师喜欢把weight写在前面😂
音画不同步啊
讲的很好,通俗易懂,调理清晰。图文并貌
感谢老师非常清楚且浅显易懂的教学
只是最后一页提到的 mapreduce cost,学生认为 computation cost 应该直接涵盖于 synchronization 里,毕竟synchronization主要就是最慢的 computation cost
深入浅出,去繁就简,直指核心,必须点赞!!!
讲的真的是太好了!王老师,字正腔圆,清晰易懂,谁会不爱呢???!
偶然点开这个视频,花了十分钟居然听懂了mapreduce,感谢老师!
非常好,我是做ai芯片,讲了理论基础
推荐系统中当物品数量多embedding很大,但model其他部分并不大时,用什么distributed training技术比较好?
机器学习的宝藏。谢谢分享。
干练清晰明了,讲得太好了👍👍👍
干货满满,给你点赞
真不知道说啥了,这些课程太好了!我要向您学习!
真正的牛人!
王老师我想请教一下,为什么Loss function只是把所有样本的误差加起来而不求一个平均呢,如果不求的话损失不是会随着样本的增加而无限制增加嘛。不求平均是因为我们平时在实际应用的情况中确定了batch size所以不需要求吗?
王老师太赞了
很好的课程
老师讲得太强了!
谢谢王老师
太棒了!一直在想梯度是什么意思!您一讲我就听懂了……
有没有deeplearning的系列,老师讲的太好了
老师讲的很好!谢谢您!《入侵检测,使用机器学习算法分析网络和系统安全威胁》这个题目有材料或资料吗?
太棒了
期待更新更多视频
讲的真好!
感谢您~!
marvelous video!
王老师您好,想请教一下 worker node里共享内存的processor ,跟我们平时说的cluster的worker node可以划分为多个executor是同一个概念吗?
不太一样。处理器是机器本身的。executor数量是人为定的,可以任意。
非常好的内容!老师能讲一下为什么你不推荐Spark这类MapReduce的系统做ML?视频里面留了一个flag但是我没有找到 谢谢!
这些系统需要synchronization。只有几个节点的时候没问题。但是当节点多的时候,synchronization的代价很大。比实际的时间的话,同步算法总是比异步慢很多。
不知当问不当问,为什么Loss Function中有1/2呢?我理解是此处常数是多少不影响,只是为了在求导得梯度时可以与2相乘抵消掉。
是的。系数无所谓,会被learning rate吸收掉。
@@ShusenWang 谢谢王老师!
NLP研究生在读 期待您更多的视频
太强了!
赞👍
王老师,可以推荐一些分布式机器学习应用的paper吗?
现在已经不是很热门的领域了,了解一下就好,不建议深挖
@@ShusenWang 请问王老师最近这个领域哪个方向较热啊。还是都比较卷
@@jiutianyu3592 不太建议做这个方向。low-hanging fruits都被摘完了
@@ShusenWang 王老师 那现在哪个方向比较好
@@ShusenWang 但是看最近出了很多pipeline并行,tensor并行的方法
博主了解automl吗?可以讲一些关于automl最新的研究方向和进展吗?感谢。
我打算讲 neural architecture search,但是暂时没时间录。
@@ShusenWang 期待!
语气变温柔了
w* = argminL(w) 吧。
是的。我写错了。多谢!
cool!
深入浅出,复杂的理论听着像王刚炒菜那么简单
这里的 x 应该是 R^{dx1}而不是 R^d 吧
嗯,其实是一个意思
稳!
有这个课程的PPT可以共享吗
PDF文件都在这: github.com/wangshusen/DeepLearning
@@ShusenWang 谢谢
@@ShusenWang 博主有什么ins、推特之类的社交账号嘛,可以关注一下
@@jamesguo1344 他有小红书
4:00 f(x)=x^T w是不是应该写成f(x)=w x^T
不是的。向量是列向量,x^T w 是实数,而你说的 w x^T 是矩阵。
@@ShusenWang 哦哦好的,谢谢!
@@ShusenWang 我学校老师喜欢把weight写在前面😂
音画不同步啊