ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
比我自己看论文容易理解多了,期待更多解读
謝謝老師
在B站看了,再来这里看第二遍!
Attention is all you need
沐神可不可以出一期知识图谱的!一直在追你的视频,质量很高!🥺
同問想看知識圖譜的🙋♀️
李沐老师讲的很牛逼
想請問各位,大約25:00計算模型參數時有計算到transformer block 中的兩個 layer norm 嗎? layer norm應該要有gamma跟beta屬於可學習參數。
Mu神,来挖坑了,你视频最后说到的想法是啥啊?关于为什么bert 比 gpt的影响力要大。我觉得一个很大的原因,你视频里也提到了,他把cv 里面那套 大的数据集预训练,然后在垂类领域微调拿到nlp 里面来用,而且用的好,破圈了。
太棒了
先赞再看
支持沐神!
啊哈哈哈,现在GPT要排在第一的位置了😊
支持沐神😍
❤❤❤❤❤❤❤❤
计算参数量的时候为什么没有注意力头的个数A呢?
A*64=H
注意力本身是没有参数的
导师好
太神了
很酷
沐神👍 之后有没有机会讲讲automl? 或者推荐一些经典automl paper?
大佬什么时候讲讲gpt3
Mum for the next video
早年RNN和LSTM的使用双向模型是为克服记忆消失问题,但是如果说attention机制没有视野限制可以注意到间隔很远的词,那在基于transformer编码器的模型中bidirectional为什么会有增益呢?
开头讲了之前用transformer的时候decoder是unidirectional的 "attention注意到间隔很远的词"和"unidirectional vs bidirectional"是两个topics
7:50 笑死了。
来了
能不能出一期论文工程复现的视频?
youxiu
谢谢老师
比我自己看论文容易理解多了,期待更多解读
謝謝老師
在B站看了,再来这里看第二遍!
Attention is all you need
沐神可不可以出一期知识图谱的!一直在追你的视频,质量很高!🥺
同問想看知識圖譜的🙋♀️
李沐老师讲的很牛逼
想請問各位,大約25:00計算模型參數時有計算到transformer block 中的兩個 layer norm 嗎? layer norm應該要有gamma跟beta屬於可學習參數。
Mu神,来挖坑了,你视频最后说到的想法是啥啊?关于为什么bert 比 gpt的影响力要大。我觉得一个很大的原因,你视频里也提到了,他把cv 里面那套 大的数据集预训练,然后在垂类领域微调拿到nlp 里面来用,而且用的好,破圈了。
太棒了
先赞再看
支持沐神!
啊哈哈哈,现在GPT要排在第一的位置了😊
支持沐神😍
❤
❤
❤
❤
❤
❤
❤
❤
计算参数量的时候为什么没有注意力头的个数A呢?
A*64=H
注意力本身是没有参数的
导师好
太神了
很酷
沐神👍 之后有没有机会讲讲automl? 或者推荐一些经典automl paper?
大佬什么时候讲讲gpt3
Mum for the next video
早年RNN和LSTM的使用双向模型是为克服记忆消失问题,但是如果说attention机制没有视野限制可以注意到间隔很远的词,那在基于transformer编码器的模型中bidirectional为什么会有增益呢?
开头讲了之前用transformer的时候decoder是unidirectional的 "attention注意到间隔很远的词"和"unidirectional vs bidirectional"是两个topics
7:50 笑死了。
来了
能不能出一期论文工程复现的视频?
youxiu
谢谢老师