ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
大神讲的真是浅显易懂,切中要害,听了那么多版本的attenion,就您这版最好理解。感觉自己听懂了,明白了。非常感谢您的分享。
李宏毅的更细节一些。
謝謝大佬 深入淺出又補充了不少相關知識 真的是造福後進
57:00 感觉是整个精读的精髓,谢谢老师!
感谢大佬的分享,非常的浅显易懂,能够很好的将以往的技术和论文中的架构设计结合起来去讲解,让听众能够明白为什么这样设计,以前是怎么设计,以前和现在的设计各自的优点和缺点是什么,视频中还有许多很直观的比喻,之前看原文真实看的一头雾水、不体系,正式因为看到一小段就需要去深入挖掘一些额外的知识才能继续阅读,这可能也是信息密度高的文章比较晦涩难懂的原因,还好有您的视频才让更多对AI、对模型感兴趣的人能够更好的学习这个领域的知识,感谢~^_^
讲得真好,我反复读了好多遍了听你讲还能温故知新太棒了!谢谢李老师!
非常好,大学没有这么好的课程。沐神,身体健康
你在黑你大学的教学质量哈哈
大佬的讲解真是入木三分,对大模型的学习太有帮助了
感謝指點我們的注意力
讲的太好了,感谢老师,感谢互联网!!!!!!
最近刚好在学transformers有点疑惑 老师讲得非常清晰 问题迎刃而解 感谢!
局外人发言。不小心搜到这个视频。视频看了一大半,觉得博主讲得好,心想这人一定自己懂很多,纳闷他会是哪个大学的计算机老师。原来是传说中的人物:)
感谢老师的详细讲解和无私分享!小白学到了很多🌹
讲的非常清楚,非常感谢老师的讲解!!❤
太棒了,很喜欢精读论文系列
理解透彻,讲解深入浅出,还肯花时间录制视频,收下我的膝盖
非常棒!没有完全听懂,因为不是搞AI计算的,但是几十年前搞过并行算法的科学计算,很多东西是类比的。还是很有收获。大概需要多看几遍
老师讲的真的很好,常看常新
讲的太好了。 我 AI 完全不懂, 都可以理解你讲的。 感谢!
感谢李沐老师,常读常新。
聽了好幾遍,講得實在太好了!
感谢大佬,真的是深入浅出!支持老师出更多视频!
在LLM大规模发展应用的今天再回头来看这个,感叹核心技术对行业发展的强大推动力,还有就是大道至简
感谢精讲!挑个小毛病。4:52 褒(音同包)义词
Thank you very much for you work, Dr. Li!
我认真听了的。褒义词和裹义词。
谢谢老师,很有价值的分享。褒奖的褒,念Bao(同保)。
讲得太好了,牛
这种看了一个小时,知识进不了脑子的感觉太奇妙了😍
真有耐心啊,谢谢主播分享
Transformer把序列信息抽取出来,加工成我们想要的语义空间。
目前全网最优论文“解毒”保姆,小白这里佩服你。
在encoder中的自注意力可以计算所有的score(Q*K),encode中的mask是为了防止对输入序列中padding的数据计算分数。在decoder中mask是为了屏蔽“未来“的数据。
lz讲得真好,视频做得也很上心!一部视频tshirt换了好几次
谢谢大佬的讲解,详细易懂~感谢感谢!
解释得非常好,Thanks
了不起的成就與貢獻❤❤❤😂😂😂
讲的是真的好
感谢,多年之后回来看还是有所收获。
万分感谢! 期待您更多的作品
视频真的非常好
非常赞,讲得很清楚
讲的太棒了!!必须点赞
讲的太好了! 非常适合我这样的小白学习。
哇,竟然有一个半小时的全程字幕。辛苦了。
真的太好了 宝藏频道
3.3节55:04,在attention之后,经过norm后的feed forward MLP 是“position”-wise,不是“point”-wise。不过大佬的讲解没问题,估计是口误。MLP只对embedded features内部维度做线性变化,position之间是没有交互的,并且是weight是shared。也可以认为每一个position是一个point。
真的不错!大神就是大神!
你的解說讓我的眼界更進一步了…
再生父母啊!!!!!!!!呜呜呜呜谢谢老师!!!
哈哈这么夸张😅😅😅
恰到好处的表达了感谢之情
父就可以了 父母也。。。
膜拜大神,认真学习!
感谢大神无私分享,拜谢~!
太棒了 受益匪浅
老師太神了
谢谢老师,感谢大佬带我入门Transformer
感谢分享 层层深入
再来看李老师的讲解,终于看懂了(差不多)
非常感谢您的分享!
非常有用,感謝大老
谢谢,讲得清晰明了
讲的太好了老师,谢谢!
宝藏博主!谢谢您的分享。想跟着博主学习更多ML的知识。
讲得好细啊!超棒!
非常好! 唯一有一点没讲太清楚的时候就是训练和预测的时候outputs sequence是具体怎么用的
这个视频还有前两集,它们在visualize上做得挺好的。
講的太好了,痛哭流涕啊
老师讲的太好了!深入浅出!
未看先感谢沐神~
受益良多,期待更多分享。
THE BEST!!!
谢谢 很有裨益
Very impressive! Thank you!
感谢老师分享
Thanks for detail explanation
感谢分享!
讲的真好
太感谢啦!
Very good
可以这样理解吗?norm是为了让传感器的输出稳定,bn处理的卷积核影响的是通道维度,多头注意力是对特征重新加权,影响的是句子维度。
大老恕我爆粗口但是給予敬意:他媽的這種視頻都有。謝謝了
每一个搞深度学习科研的人最终都逃不过这一期视频😅
这简直是种享受,大佬教学确实不一样
火出圈的Transformer催生了ChatGPT
Thanks!
感谢大佬!
大佬您為何那麼晚才讓我看到您的影片 太感激了
大神❤
33:40处,绿色的权重应该只与自身高度相关,与中间的向量应该不一定相关。
谢谢,老师,太帅了
感谢大佬!
4:53 褒(bao)义词
一輪簽! 謝謝大大,讓我知識完備很多
感想:Transformer 听起来也不复杂(很多听起来高深算法甚至觉得理解起来并不复杂)。有时候甚至觉得人类怎么才走到这里?不过不就是这样:我相信那种聪明的人很多,这样的人可能解决这种难题是很快就搞定的。但是现实中,能有机会坐到那个位置,动用资源,能免于饥荒、灾祸、糊口、疾病、收入、家庭琐事,以至于还有心情,有着内心追求去做点努力,还要付出大量的金钱获得结果,可能迎接他的还是大量的失败,他必须耐心到最后,还需要幸运,最后能得到结果这样的人是少数。Transformer 的出现也是一个随机幸运。而且一定是出现在资源大量溢出的国家。徘徊在糊口附近的国家,人思维受限的国家,无法产生这样的东西。 即使回过头来看起来很简单。
感谢🙏
感谢大佬
有没有同学跟我一样的,看国内大佬讲论文觉得很吃力,比如LN 部分,就是简单的对不同维度的norm,大佬这么一讲反而更困惑了😅。海外博士毕业后想复习一些概念,视频可以健身时候听,第一次听中文的感觉理解起来磕磕绊绊。
比如tensor NHWC 或者NCHW,BN 对的是N,LN 对的是C。反映到数学上mean(x_n) or mean(x_c) etc.
LN的问题不是怎么操作,而是为什么这么做使得效果变好。这个我是无法清晰理解,沐神说了后来有人出了论文解释估计是纯数学理论。我的想法是LN处理的数据都是embedding,可能梯度和feature向量相对差异才是重点而不是特征值的绝对大小。
健身时候听视频..开玩笑嘛..不要吹牛..谢谢
感谢!
感謝!
Repect! 感恩大佬
多谢!
厉害!
大神讲的真是浅显易懂,切中要害,听了那么多版本的attenion,就您这版最好理解。感觉自己听懂了,明白了。非常感谢您的分享。
李宏毅的更细节一些。
謝謝大佬 深入淺出又補充了不少相關知識 真的是造福後進
57:00 感觉是整个精读的精髓,谢谢老师!
感谢大佬的分享,非常的浅显易懂,能够很好的将以往的技术和论文中的架构设计结合起来去讲解,让听众能够明白为什么这样设计,以前是怎么设计,以前和现在的设计各自的优点和缺点是什么,视频中还有许多很直观的比喻,之前看原文真实看的一头雾水、不体系,正式因为看到一小段就需要去深入挖掘一些额外的知识才能继续阅读,这可能也是信息密度高的文章比较晦涩难懂的原因,还好有您的视频才让更多对AI、对模型感兴趣的人能够更好的学习这个领域的知识,感谢~^_^
讲得真好,我反复读了好多遍了听你讲还能温故知新太棒了!谢谢李老师!
非常好,大学没有这么好的课程。沐神,身体健康
你在黑你大学的教学质量哈哈
大佬的讲解真是入木三分,对大模型的学习太有帮助了
感謝指點我們的注意力
讲的太好了,感谢老师,感谢互联网!!!!!!
最近刚好在学transformers有点疑惑 老师讲得非常清晰 问题迎刃而解 感谢!
局外人发言。不小心搜到这个视频。视频看了一大半,觉得博主讲得好,心想这人一定自己懂很多,纳闷他会是哪个大学的计算机老师。原来是传说中的人物:)
感谢老师的详细讲解和无私分享!小白学到了很多🌹
讲的非常清楚,非常感谢老师的讲解!!❤
太棒了,很喜欢精读论文系列
理解透彻,讲解深入浅出,还肯花时间录制视频,收下我的膝盖
非常棒!没有完全听懂,因为不是搞AI计算的,但是几十年前搞过并行算法的科学计算,很多东西是类比的。还是很有收获。大概需要多看几遍
老师讲的真的很好,常看常新
讲的太好了。 我 AI 完全不懂, 都可以理解你讲的。 感谢!
感谢李沐老师,常读常新。
聽了好幾遍,講得實在太好了!
感谢大佬,真的是深入浅出!支持老师出更多视频!
在LLM大规模发展应用的今天再回头来看这个,感叹核心技术对行业发展的强大推动力,还有就是大道至简
感谢精讲!挑个小毛病。4:52 褒(音同包)义词
Thank you very much for you work, Dr. Li!
我认真听了的。褒义词和裹义词。
谢谢老师,很有价值的分享。褒奖的褒,念Bao(同保)。
讲得太好了,牛
这种看了一个小时,知识进不了脑子的感觉太奇妙了😍
真有耐心啊,谢谢主播分享
Transformer把序列信息抽取出来,加工成我们想要的语义空间。
目前全网最优论文“解毒”保姆,小白这里佩服你。
在encoder中的自注意力可以计算所有的score(Q*K),encode中的mask是为了防止对输入序列中padding的数据计算分数。
在decoder中mask是为了屏蔽“未来“的数据。
lz讲得真好,视频做得也很上心!一部视频tshirt换了好几次
谢谢大佬的讲解,详细易懂~感谢感谢!
解释得非常好,Thanks
了不起的成就與貢獻❤❤❤😂😂😂
讲的是真的好
感谢,多年之后回来看还是有所收获。
万分感谢! 期待您更多的作品
视频真的非常好
非常赞,讲得很清楚
讲的太棒了!!必须点赞
讲的太好了! 非常适合我这样的小白学习。
哇,竟然有一个半小时的全程字幕。辛苦了。
真的太好了 宝藏频道
3.3节55:04,在attention之后,经过norm后的feed forward MLP 是“position”-wise,不是“point”-wise。不过大佬的讲解没问题,估计是口误。MLP只对embedded features内部维度做线性变化,position之间是没有交互的,并且是weight是shared。也可以认为每一个position是一个point。
真的不错!大神就是大神!
你的解說讓我的眼界更進一步了…
再生父母啊!!!!!!!!呜呜呜呜谢谢老师!!!
哈哈这么夸张😅😅😅
恰到好处的表达了感谢之情
父就可以了 父母也。。。
膜拜大神,认真学习!
感谢大神无私分享,拜谢~!
太棒了 受益匪浅
老師太神了
谢谢老师,感谢大佬带我入门Transformer
感谢分享 层层深入
再来看李老师的讲解,终于看懂了(差不多)
非常感谢您的分享!
非常有用,感謝大老
谢谢,讲得清晰明了
讲的太好了老师,谢谢!
宝藏博主!谢谢您的分享。想跟着博主学习更多ML的知识。
讲得好细啊!超棒!
非常好! 唯一有一点没讲太清楚的时候就是训练和预测的时候outputs sequence是具体怎么用的
这个视频还有前两集,它们在visualize上做得挺好的。
講的太好了,痛哭流涕啊
老师讲的太好了!深入浅出!
未看先感谢沐神~
受益良多,期待更多分享。
THE BEST!!!
谢谢 很有裨益
Very impressive! Thank you!
感谢老师分享
Thanks for detail explanation
感谢分享!
讲的真好
太感谢啦!
Very good
可以这样理解吗?norm是为了让传感器的输出稳定,bn处理的卷积核影响的是通道维度,多头注意力是对特征重新加权,影响的是句子维度。
大老恕我爆粗口但是給予敬意:他媽的這種視頻都有。謝謝了
每一个搞深度学习科研的人最终都逃不过这一期视频😅
这简直是种享受,大佬教学确实不一样
火出圈的Transformer催生了ChatGPT
Thanks!
感谢大佬!
大佬您為何那麼晚才讓我看到您的影片 太感激了
大神❤
33:40处,绿色的权重应该只与自身高度相关,与中间的向量应该不一定相关。
谢谢,老师,太帅了
感谢大佬!
4:53 褒(bao)义词
感谢大佬!
一輪簽! 謝謝大大,讓我知識完備很多
感想:Transformer 听起来也不复杂(很多听起来高深算法甚至觉得理解起来并不复杂)。有时候甚至觉得人类怎么才走到这里?不过不就是这样:我相信那种聪明的人很多,这样的人可能解决这种难题是很快就搞定的。但是现实中,能有机会坐到那个位置,动用资源,能免于饥荒、灾祸、糊口、疾病、收入、家庭琐事,以至于还有心情,有着内心追求去做点努力,还要付出大量的金钱获得结果,可能迎接他的还是大量的失败,他必须耐心到最后,还需要幸运,最后能得到结果这样的人是少数。Transformer 的出现也是一个随机幸运。而且一定是出现在资源大量溢出的国家。徘徊在糊口附近的国家,人思维受限的国家,无法产生这样的东西。 即使回过头来看起来很简单。
感谢🙏
感谢大佬
有没有同学跟我一样的,看国内大佬讲论文觉得很吃力,比如LN 部分,就是简单的对不同维度的norm,大佬这么一讲反而更困惑了😅。海外博士毕业后想复习一些概念,视频可以健身时候听,第一次听中文的感觉理解起来磕磕绊绊。
比如tensor NHWC 或者NCHW,BN 对的是N,LN 对的是C。反映到数学上mean(x_n) or mean(x_c) etc.
LN的问题不是怎么操作,而是为什么这么做使得效果变好。这个我是无法清晰理解,沐神说了后来有人出了论文解释估计是纯数学理论。我的想法是LN处理的数据都是embedding,可能梯度和feature向量相对差异才是重点而不是特征值的绝对大小。
健身时候听视频..开玩笑嘛..不要吹牛..谢谢
感谢!
感謝!
Repect! 感恩大佬
多谢!
厉害!