【生成式AI導論 2024】第16講:可以加速所有語言模型生成速度的神奇外掛 - Speculative Decoding

แชร์
ฝัง
  • เผยแพร่เมื่อ 17 พ.ค. 2024
  • 投影片:drive.google.com/file/d/1Ac3o...
    5:00 如何判斷預言家的輸出是否錯誤呢?當預言家剛產生預測時,我們無法立即知道這些預測是否正確。只有在語言模型實際生成輸出後,我們才能判斷預言家的預測是否正確。如果語言模型的輸出是基於錯誤的預測,那部分的輸出就會被丟棄。
    延伸閱讀
    SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification
    arxiv.org/abs/2305.09781

ความคิดเห็น • 21

  • @HungyiLeeNTU

    下週沒有上課

  • @haoshan7253

    很清楚!

  • @menkiguo7805

    这不就是和cpu的分支预测一样吗

  • @Terry0319

    謝謝老師

  • @KbaMercury

    請問老師,這個方法也能應用在ddpm這類的模型上嗎?

  • @SyuAsyou

    和分支預測好像,某種程度上來說,這一課的內容最好懂

  • @user-in2dd6by9q

    所以是使用更多的计算资源,换取一定概率的加速。 对很多场景来说,计算资源其实比时间贵😢

  • @user-mv9ul9tz1c

    不曉得目前Speculative Decoding 實際應用是真的讓LLM結果明顯增強,還是只是讓速度稍微快一點而已

  • @pulap3211

    請問預言家生出的兩個預測,再跑model後的「第三個」(綠色) 對於下一次的預測或輸出有什麼影響嗎? 影片內容沒有提到這部分

  • @chuanjiang6931

    预言家这个外挂是何种形式存在的?实操里如何与LLM结合?

  • @user-mm7ot5zq2c

    speculative Decoding是Google和DeepMind在2022年就發表的,但現在LLM最大的問題仍然是幻覺,出輸的結果並不可靠,但這是生成式AI的本質....

  • @run963741

    謝謝老師

  • @zhangmr7955

    講義連結錯誤

  • @jeffreyhsiao7938

    我不理解,就算我們真的能利用平行來讓預言家進行輸出,但只要我們還要進行檢查,我們就必須等語言模型跑完後,才能對結果進行比對以找出錯誤。