Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87

แชร์
ฝัง
  • เผยแพร่เมื่อ 25 พ.ย. 2024

ความคิดเห็น • 6

  • @halilibrahimakgun7569
    @halilibrahimakgun7569 หลายเดือนก่อน

    can you share slides ?

  • @attention42
    @attention42 10 หลายเดือนก่อน +1

    Thank you for sharing this insightful video. In the introduction of Mamba, it says "parellelizable training", can you explain how parallel training is possible in an autoregressive model?

    • @robertjflynn4206
      @robertjflynn4206 10 หลายเดือนก่อน

      Teacher forcing

    • @icriou
      @icriou 10 หลายเดือนก่อน

      Follow this video and you will have hands on understanding why AR model could be trained in parallel. th-cam.com/video/kCc8FmEb1nY/w-d-xo.html

    • @matthewnorton2315
      @matthewnorton2315 10 หลายเดือนก่อน

      I think you might be looking for the "selective scan" part of Mamba. In section 3.3.2 of the paper arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf, they say "To avoid the sequential recurrence, we observe that despite not being linear it can still be parallelized with a
      work-efficient parallel scan algorithm (Blelloch 1990; Martin and Cundy 2018; Smith, Warrington, and Linderman
      2023)". In short, they use a well known parallel algorithm trick to calculate a prefix sum. See en.wikipedia.org/wiki/Prefix_sum#Parallel_algorithms and you'll notice the similarity. Hope this helps!

  • @ostrov11
    @ostrov11 4 หลายเดือนก่อน

    ... какие то откровения ML джуна