DPO V.S. RLHF 模型微调

แชร์
ฝัง
  • เผยแพร่เมื่อ 10 ก.ย. 2024

ความคิดเห็น • 7

  • @neurite001
    @neurite001 7 หลายเดือนก่อน

    激动万分啊, 也像 Andrew Ng 一样, 在咖啡馆里差一点就跳起来, 终于有中文博主讲解DPO了

    • @AliceInAILand
      @AliceInAILand  7 หลายเดือนก่อน +3

      😄 我也是 看到这么漂亮的证明满心欢喜;今天还看到meta家已经用这个self-rewarding的方法fine tune llama2-70b 说在一些benchmark上效果比gpt4好arxiv.org/abs/2401.10020

  • @iwisher666
    @iwisher666 5 หลายเดือนก่อน +1

    加油 加油

  • @theodoruszhou2692
    @theodoruszhou2692 6 หลายเดือนก่อน

    Thank you very much for the video, the explanations were very clear, and I learned a lot. Looking forward to your next work~

    • @AliceInAILand
      @AliceInAILand  6 หลายเดือนก่อน

      Glad it was helpful :)

  • @fungpangfan8825
    @fungpangfan8825 2 หลายเดือนก่อน

    ❤🎉

  • @user-bz5be9bj4k
    @user-bz5be9bj4k 3 หลายเดือนก่อน

    能给数学并不好的人(我)解答一下吗?
    RLHF和DPO的共同点都是preference对子,DPO不依赖于reward model和RL,那是不是说DPO的训练数据会少很多?因为preference也是人来评判的,没用到其他模型作为近似。我感觉reward model也有是一个数据增广的作用,或者bootstrapping的感觉。
    也很想知道,怎么把调整模型输出某个句子出现的概率转换成梯度的,最近看到一篇叫做KTO,说是不依赖preference对子,只要一个例子和一个二元判断受人类欢迎和不受欢迎就够了。不清楚为什么对子为啥这么重要。
    如果可以,能请你更多用自然语言解释解释和对比一下这些方法论之间的异同吗?也希望节目时间能短一点。。。谢谢你!🤗