EP46 - 比Transformer更強更快的架構?深度解析SSM!真的能取代Transformer嗎?

แชร์
ฝัง
  • เผยแพร่เมื่อ 4 ต.ค. 2024

ความคิดเห็น • 7

  • @HJKO2
    @HJKO2 หลายเดือนก่อน

    State-Space Model就是1960年發表的Kalman filter,當初就是被拿來預測阿波羅計畫的太空船軌道。後來在現代控制理論和訊號處理被大量使用,MAMBA的論文看起來還有些缺陷,從頻域的角度來看,MAMBA系列的論文把SSM中系統矩陣的特徵值虛數部份給丟棄,個人猜測應該是穩定度的問題導致,SSM是回授系統,穩定度的維持是重中之重。

  • @I_am_DD
    @I_am_DD 3 หลายเดือนก่อน

    Very interesting topic!

  • @wwssswqw4p
    @wwssswqw4p 3 หลายเดือนก่อน

    最進有三個哈佛小子做專用transformer專用的晶片,這樣會有影響?

    • @cicerochen313
      @cicerochen313 3 หลายเดือนก่อน

      That chip you mentioned is for inference but not for training (nVd)! Quite difference!

  • @waynechiu9078
    @waynechiu9078 3 หลายเดือนก่อน

    Mamba

  • @howard19861022
    @howard19861022 3 หลายเดือนก่อน

    請問speak有主動的部分嗎?