An update on DPO vs PPO for LLM alignment

แชร์
ฝัง
  • เผยแพร่เมื่อ 19 ธ.ค. 2024

ความคิดเห็น • 7

  • @LinetteScuderi
    @LinetteScuderi 4 หลายเดือนก่อน

    Офигенно близкая игра! Очень кайфово смотреть такие адреналиновые заносы!

  • @natolambert
    @natolambert  5 หลายเดือนก่อน +2

    Models, datasets, etc: huggingface.co/collections/allenai/tulu-v25-suite-66676520fd578080e126f618

    • @sumanthbalaji1768
      @sumanthbalaji1768 4 หลายเดือนก่อน

      Hey Nathan, your research seems to defend PPO over DPO but the most recent large models from llama3.1 and nemotron 4 DONT make use of PPO. They just make use of DPO with rejection sampling. In fact llama 3.1 paper chooses DPO only because of ease of compute.
      What are your thoughts on this?
      Is PPO more relevant for small to medium sized LLMs?
      Can the scale of large LLMs with DPO (and clever rejection sampling) be enough?

    • @natolambert
      @natolambert  4 หลายเดือนก่อน

      @@sumanthbalaji1768 will write an update on this soon on www.interconnects.ai/ :)

    • @sumanthbalaji1768
      @sumanthbalaji1768 4 หลายเดือนก่อน

      @@natolambert lovely, thanks

  • @666WolfWere
    @666WolfWere 4 หลายเดือนก่อน

    THX! :D

  • @420_gunna
    @420_gunna 5 หลายเดือนก่อน

    "White Rice Research" 🍚🔍👁