BERT 论文逐段精读【论文精读】

แชร์
ฝัง
  • เผยแพร่เมื่อ 4 ก.พ. 2025

ความคิดเห็น •

  • @dorisfang8636
    @dorisfang8636 2 ปีที่แล้ว +11

    比我自己看论文容易理解多了,期待更多解读

  • @zzzjohnpaper
    @zzzjohnpaper ปีที่แล้ว +1

    謝謝老師

  • @pantan4206
    @pantan4206 3 ปีที่แล้ว

    在B站看了,再来这里看第二遍!

  • @pentapandamusic
    @pentapandamusic ปีที่แล้ว

    Attention is all you need

  • @Stefan-pb4jw
    @Stefan-pb4jw 2 ปีที่แล้ว +7

    沐神可不可以出一期知识图谱的!一直在追你的视频,质量很高!🥺

    • @evelyn-rd3lb
      @evelyn-rd3lb 2 ปีที่แล้ว +3

      同問想看知識圖譜的🙋‍♀️

  • @OptimusPrimeYan
    @OptimusPrimeYan ปีที่แล้ว

    李沐老师讲的很牛逼

  • @u4rr837
    @u4rr837 ปีที่แล้ว +3

    想請問各位,大約25:00計算模型參數時有計算到transformer block 中的兩個 layer norm 嗎? layer norm應該要有gamma跟beta屬於可學習參數。

  • @jayzhang3065
    @jayzhang3065 ปีที่แล้ว

    Mu神,来挖坑了,你视频最后说到的想法是啥啊?关于为什么bert 比 gpt的影响力要大。我觉得一个很大的原因,你视频里也提到了,他把cv 里面那套 大的数据集预训练,然后在垂类领域微调拿到nlp 里面来用,而且用的好,破圈了。

  • @jinhuizhang702
    @jinhuizhang702 3 ปีที่แล้ว +1

    太棒了

  • @alphaprofold5707
    @alphaprofold5707 3 ปีที่แล้ว +2

    先赞再看

  • @thomassun7015
    @thomassun7015 3 ปีที่แล้ว

    支持沐神!

  • @amanhasnoname836
    @amanhasnoname836 ปีที่แล้ว

    啊哈哈哈,现在GPT要排在第一的位置了😊

  • @runyulu7453
    @runyulu7453 3 ปีที่แล้ว

    支持沐神😍

  • @Benjaminyang-fb7nf
    @Benjaminyang-fb7nf ปีที่แล้ว








  • @zhgzhou3589
    @zhgzhou3589 3 ปีที่แล้ว +2

    计算参数量的时候为什么没有注意力头的个数A呢?

  • @hansimon1097
    @hansimon1097 3 ปีที่แล้ว

    导师好

  • @cy2340
    @cy2340 ปีที่แล้ว

    太神了

  • @yks2323
    @yks2323 2 ปีที่แล้ว

    很酷

  • @jasonwu8166
    @jasonwu8166 3 ปีที่แล้ว +1

    沐神👍 之后有没有机会讲讲automl? 或者推荐一些经典automl paper?

  • @jinhuizhang702
    @jinhuizhang702 3 ปีที่แล้ว

    大佬什么时候讲讲gpt3

  • @sampsuns
    @sampsuns 3 ปีที่แล้ว

    Mum for the next video

  • @tildarusso
    @tildarusso ปีที่แล้ว

    早年RNN和LSTM的使用双向模型是为克服记忆消失问题,但是如果说attention机制没有视野限制可以注意到间隔很远的词,那在基于transformer编码器的模型中bidirectional为什么会有增益呢?

    • @sally5453
      @sally5453 ปีที่แล้ว

      开头讲了之前用transformer的时候decoder是unidirectional的 "attention注意到间隔很远的词"和"unidirectional vs bidirectional"是两个topics

  • @richard126wfr
    @richard126wfr 11 หลายเดือนก่อน

    7:50 笑死了。

  • @user-wzb
    @user-wzb 3 ปีที่แล้ว

    来了

  • @JiancongXie
    @JiancongXie ปีที่แล้ว

    能不能出一期论文工程复现的视频?

  • @cc189tv
    @cc189tv 3 ปีที่แล้ว +1

    youxiu

  • @GangWang-mn9gk
    @GangWang-mn9gk 8 หลายเดือนก่อน

    谢谢老师