ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
讲得真好,一句废话没有,全是干货!华人之光。
OMG,10分钟就搞懂LSTM了,之前上了几个小时的课也云里雾里的,这10分钟基本就搞懂了,厉害厉害!我觉得这个讲解好的地方是,不说虚的,不来公式,从问题出发;用带颜色的矩阵块来表示数据shape,其实这些一旦搞明白了,那些形而上的东西(输入门,遗忘门,输出门)就不用费力解释了;最后还有代码实现,一以贯之的测试用例和直观的性能比较。传道授业的至高境界,祛魅!
同感
发现了宝藏UP主,讲解太牛逼了!别看讲得慢条斯理,但是却十分细致!短短的十分钟里不光详细介绍了模型内部的计算过程,而且有keras的实现~
超級乾貨呀! 懇請老師永遠上影片在架上! 造福廣大的學生及工程師
又看了一次! 真的讚
很棒!快速入门和了解特别合适。看完去看paper也有一定基础,不至于啥也不懂。
講得真棒 真幸運能在台灣看到您的視頻
宝藏老师
王老师,讲课高手。简洁,有逻辑。
干货满满!还没有广告,太良心了
不知道为什么最近不更新了,希望看到更多视频。可以说一些paper和经典方法。希望多一些强化和graph的讲解
卧槽讲得好好,发现宝藏了
感谢分享,非常不错的教程Thanks for sharing. Nice tutorial!
学习了,教学节奏特别好
太棒了!
讲解得非常清晰!感谢!
太好了!我要把老师的视频都学完
非常感谢!
讲得真好!
王老师你好,我有个关于output dimension的问题,在视频9:55分。embedding层的输出是(none, 500, 32).也就是说 每个电影评论 (我们只保留最后500个单词,当然如果不够就用zero padding) 的每一个单词都用一个32 dimension的vector来表示。我记得training数据是20000个,那也就是说我们有20000个电影评论。那实际上embedding的输出是20000个50by32的矩阵么?不好意识,问题可能比较naive。谢谢
实现的时候不用管 20000。训练和测试的时候都是用mini-batch。如果batch size = 8,那么每次输出的就是 8x500x32 的tensor. 由于batch size到了训练和测试时候才知道,所以用 none 。
@@ShusenWang 明白了 非常感谢!
碰到好的讲解我从来不溢美之词。但是这个视频真觉得一般,博主只告诉如何操作和实现,至于LSTM深层次的原理和为什么实现长短起记忆都没有讲解,希望博主继续努力呀
讲得太好了!!!!!
very clean explanation
感谢老师,讲的太好了!
谢谢老师!讲的很详细
讲的是真的细
感谢分享!
期待下一课
我补充一点,forget,input和output除了乘系数矩阵外,有可能加偏移量。
谢谢王老师
老师,我有个问题,lstm层的output shape是(None, 32), 为什么说是一个向量而不是矩阵呢?shape的第一个None指的是?
输出是矩阵还是向量,取决于return_sequence是true还是false。
RNN、LSTM里的input x,hidden state,output,所有的这些东西,都必须是1维的向量吗?不能是矩阵?
还有一个naive问题,视频最后说到在lstm层用到dropout 并没有提升performance,解决overfitting。• Training Accuracy: 91.8%• Validation Accuracy: 88.7%• Test Accuracy: 88.6%请问根据这组数据,如何判断overfitting?谢谢
从这看不出overfitting。要把模型参数变大和变小,看validiation变好还是变坏。如果模型变小,validation 变好,就知道之前发生了overfitting。
@@ShusenWang 老师你是指比如 x 和 h 的dimension么?我记得你讲过几次 他们的dimension是需要 cross validation 来确定的。他们的大小决定模型参数的数量。参数越多模型越复杂越容易over fit. 不知道我理解的对不对 谢谢
@@DED_Search 对的
想问问Ct到底是什么呀
👍
难怪是又严格,难拿A,但是学生又选你的课🎉
老师 打扰一下 两个问题, 1,Ct 是不是 要复制2次呀 一个是 給下一个 state 用的 还有一个是 用在这个时态的 output? 2, 我不太理解 tanh用在 ct 那地方 就是 output gate 那地方 为什么 还要 用 tanh 是为了 让 output 的值确保在 -1 和 1 之间吗 ? 就是视频 7.45那地方? 谢谢
比大部分视频和教程讲得清晰也好理解。感觉可以增加一些更intuitive的讲解,就更清楚啦
h(t-1)都是被上一个cell的tanh映射到了-1到+1之间,那么x(t)应该也是在embedding后同样缩放吧,否则拼接起来有点奇怪
老师,我是看完RNN的视频后看的LSTM,然后我想咨询一下LSTM中的Ct-1是什么信息呢?为什么RNN中没有用到Ct-1,LSTM中却多了个Ct-1呢?
课件做的太好啦,讲的也清晰!这些都是官方课件吗,还是您自己做的,感觉用tex做这些课件也是很费功夫的,非常感谢!
课件是我自己做的。有些图是别人的,我都表明出处了。
@@ShusenWang 前辈辛苦,视频做的这么好,建议直接发国内B站,TH-cam 对于国内人来说还是用的少,另外在B站看到有人转发你的视频,不知是否有授权
@@yichaohou5406 多谢~ 谁都可以转发,我不反对。我自己不想往B站发。
请问一下,Output Gate那部分,我们计算得到的Ot是为了决定从Ct更新到ht的值呢?还是决定从Ct-1更新到ht的值呢???感觉在上一步Ct已经完成了更新,后续就和Ct-1没什么关系了???
Ouput Gate的结果作为输出。在机器翻译或者文本生成的应用里,output gate输出的向量要用于预测下一个字符
@@ShusenWang 哦哦!那这个Output Gate也会随着Ct一起更新最新的ht,对么???
老师您好,我直观上没有理解为什么LSTM 相比与simple RNN 多了一个C传输效果就变好了。按理说h_t = outputGate * tanh(c_t), 也没有额外的信息啊。老师能稍微给一些intuitive 的理解嘛?
记忆力变长了。每做一次矩阵乘法+激活函数,信息就会丢一些。LSTM的c不做矩阵乘法,只有elementwise乘法。
@@ShusenWang 从h_{t-1}和x_t计算\tilde{C_t}不是要做矩阵乘法吗。C是过往\tilde{C_t}的加权吧,不也要经过矩阵乘法吗
@@pingzhang2084 你说的是新的元素\tilde{C_t}是如何计算出来的。我的意思是从旧的 C 到新的 C 没有经过矩阵乘法,这样旧的信息损失很少,可以到达很多步之后,记忆变长。
@@ShusenWang 谢谢
lstm的参数也太少了
字正腔圆,字字珠玑
真的^^
牛掰
我想做你的小弟
感谢老师,讲的真好!!
谢谢老师!
讲得真好,一句废话没有,全是干货!华人之光。
OMG,10分钟就搞懂LSTM了,之前上了几个小时的课也云里雾里的,这10分钟基本就搞懂了,厉害厉害!我觉得这个讲解好的地方是,不说虚的,不来公式,从问题出发;用带颜色的矩阵块来表示数据shape,其实这些一旦搞明白了,那些形而上的东西(输入门,遗忘门,输出门)就不用费力解释了;最后还有代码实现,一以贯之的测试用例和直观的性能比较。传道授业的至高境界,祛魅!
同感
发现了宝藏UP主,讲解太牛逼了!别看讲得慢条斯理,但是却十分细致!短短的十分钟里不光详细介绍了模型内部的计算过程,而且有keras的实现~
超級乾貨呀! 懇請老師永遠上影片在架上! 造福廣大的學生及工程師
又看了一次! 真的讚
很棒!快速入门和了解特别合适。看完去看paper也有一定基础,不至于啥也不懂。
講得真棒 真幸運能在台灣看到您的視頻
宝藏老师
王老师,讲课高手。简洁,有逻辑。
干货满满!还没有广告,太良心了
不知道为什么最近不更新了,希望看到更多视频。可以说一些paper和经典方法。希望多一些强化和graph的讲解
卧槽讲得好好,发现宝藏了
感谢分享,非常不错的教程
Thanks for sharing. Nice tutorial!
学习了,教学节奏特别好
太棒了!
讲解得非常清晰!感谢!
太好了!我要把老师的视频都学完
非常感谢!
讲得真好!
王老师你好,我有个关于output dimension的问题,在视频9:55分。embedding层的输出是(none, 500, 32).也就是说 每个电影评论 (我们只保留最后500个单词,当然如果不够就用zero padding) 的每一个单词都用一个32 dimension的vector来表示。我记得training数据是20000个,那也就是说我们有20000个电影评论。那实际上embedding的输出是20000个50by32的矩阵么?不好意识,问题可能比较naive。谢谢
实现的时候不用管 20000。训练和测试的时候都是用mini-batch。如果batch size = 8,那么每次输出的就是 8x500x32 的tensor. 由于batch size到了训练和测试时候才知道,所以用 none 。
@@ShusenWang 明白了 非常感谢!
碰到好的讲解我从来不溢美之词。但是这个视频真觉得一般,博主只告诉如何操作和实现,至于LSTM深层次的原理和为什么实现长短起记忆都没有讲解,希望博主继续努力呀
讲得太好了!!!!!
very clean explanation
感谢老师,讲的太好了!
谢谢老师!讲的很详细
讲的是真的细
感谢分享!
期待下一课
我补充一点,forget,input和output除了乘系数矩阵外,有可能加偏移量。
谢谢王老师
老师,我有个问题,lstm层的output shape是(None, 32), 为什么说是一个向量而不是矩阵呢?shape的第一个None指的是?
输出是矩阵还是向量,取决于return_sequence是true还是false。
RNN、LSTM里的input x,hidden state,output,所有的这些东西,都必须是1维的向量吗?不能是矩阵?
还有一个naive问题,视频最后说到在lstm层用到dropout 并没有提升performance,解决overfitting。
• Training Accuracy: 91.8%
• Validation Accuracy: 88.7%
• Test Accuracy: 88.6%
请问根据这组数据,如何判断overfitting?谢谢
从这看不出overfitting。要把模型参数变大和变小,看validiation变好还是变坏。如果模型变小,validation 变好,就知道之前发生了overfitting。
@@ShusenWang 老师你是指比如 x 和 h 的dimension么?我记得你讲过几次 他们的dimension是需要 cross validation 来确定的。他们的大小决定模型参数的数量。参数越多模型越复杂越容易over fit. 不知道我理解的对不对 谢谢
@@DED_Search 对的
想问问Ct到底是什么呀
👍
难怪是又严格,难拿A,但是学生又选你的课🎉
老师 打扰一下 两个问题, 1,Ct 是不是 要复制2次呀 一个是 給下一个 state 用的 还有一个是 用在这个时态的 output? 2, 我不太理解 tanh用在 ct 那地方 就是 output gate 那地方 为什么 还要 用 tanh 是为了 让 output 的值确保在 -1 和 1 之间吗 ? 就是视频 7.45那地方? 谢谢
比大部分视频和教程讲得清晰也好理解。感觉可以增加一些更intuitive的讲解,就更清楚啦
h(t-1)都是被上一个cell的tanh映射到了-1到+1之间,那么x(t)应该也是在embedding后同样缩放吧,否则拼接起来有点奇怪
老师,我是看完RNN的视频后看的LSTM,然后我想咨询一下LSTM中的Ct-1是什么信息呢?为什么RNN中没有用到Ct-1,LSTM中却多了个Ct-1呢?
课件做的太好啦,讲的也清晰!这些都是官方课件吗,还是您自己做的,感觉用tex做这些课件也是很费功夫的,非常感谢!
课件是我自己做的。有些图是别人的,我都表明出处了。
@@ShusenWang 前辈辛苦,视频做的这么好,建议直接发国内B站,TH-cam 对于国内人来说还是用的少,另外在B站看到有人转发你的视频,不知是否有授权
@@yichaohou5406 多谢~ 谁都可以转发,我不反对。我自己不想往B站发。
请问一下,Output Gate那部分,我们计算得到的Ot是为了决定从Ct更新到ht的值呢?还是决定从Ct-1更新到ht的值呢???感觉在上一步Ct已经完成了更新,后续就和Ct-1没什么关系了???
Ouput Gate的结果作为输出。在机器翻译或者文本生成的应用里,output gate输出的向量要用于预测下一个字符
@@ShusenWang 哦哦!那这个Output Gate也会随着Ct一起更新最新的ht,对么???
老师您好,我直观上没有理解为什么LSTM 相比与simple RNN 多了一个C传输效果就变好了。按理说h_t = outputGate * tanh(c_t), 也没有额外的信息啊。老师能稍微给一些intuitive 的理解嘛?
记忆力变长了。每做一次矩阵乘法+激活函数,信息就会丢一些。LSTM的c不做矩阵乘法,只有elementwise乘法。
@@ShusenWang 从h_{t-1}和x_t计算\tilde{C_t}不是要做矩阵乘法吗。C是过往\tilde{C_t}的加权吧,不也要经过矩阵乘法吗
@@pingzhang2084 你说的是新的元素\tilde{C_t}是如何计算出来的。我的意思是从旧的 C 到新的 C 没有经过矩阵乘法,这样旧的信息损失很少,可以到达很多步之后,记忆变长。
@@ShusenWang 谢谢
lstm的参数也太少了
字正腔圆,字字珠玑
真的^^
牛掰
我想做你的小弟
感谢老师,讲的真好!!
谢谢老师!