Reinforcement Learning: ChatGPT and RLHF

แชร์
ฝัง
  • เผยแพร่เมื่อ 25 ธ.ค. 2024

ความคิดเห็น • 18

  • @EternityUnknown
    @EternityUnknown 6 หลายเดือนก่อน +11

    I just binged this playlist at 1 am. Absolutely worth it. You deserve more views.

    • @dudeguy8864
      @dudeguy8864 12 วันที่ผ่านมา

      agreed

  • @colorblindzebra
    @colorblindzebra 4 หลายเดือนก่อน +4

    PLEASE COMEBACK!! You are an amazing theacher!

  • @tuulymusic3856
    @tuulymusic3856 8 หลายเดือนก่อน +4

    Please come back, your videos are great!

  • @Coder.tahsin
    @Coder.tahsin 6 หลายเดือนก่อน +3

    All of your videos are amazing, please upload more

  • @ireoluwaTH
    @ireoluwaTH ปีที่แล้ว +1

    Welcome back!
    Hope to see more of these videos..

  • @HoverAround
    @HoverAround 7 หลายเดือนก่อน

    Joel, excellent explanation and talk! Thank you!

  • @pegasusbupt
    @pegasusbupt ปีที่แล้ว +2

    Amazing content! Please keep them coming!

  • @胡里安-n6m
    @胡里安-n6m 7 หลายเดือนก่อน +1

    help me a lot, can't wait to see more

  • @jasonpmorrison
    @jasonpmorrison ปีที่แล้ว +1

    Super helpful - thank you for this series!

  • @onhazrat
    @onhazrat ปีที่แล้ว

    🎯 Key Takeaways for quick navigation:
    00:00 🤖 Reinforcement learning improves large language models like ChatGPT.
    00:25 🃏 Large language models face issues like bias, errors, and quality.
    01:11 📊 Training data quality impacts results; removing bad jokes might help.
    01:55 🧩 Training on both good and bad jokes improves language models.
    02:38 🔄 Language models are policies, reinforcement learning uses policy gradient.
    03:08 🎯 Reinforcement Learning from Human Feedback (RLHF) challenges data acquisition.
    03:35 🤔 RLHF theory: Language model might already know jokes' boundary.
    04:18 🏆 Training a reward network predicts human ratings for model's output.
    04:47 🔄 Reward network is a modified language model for predicting ratings.
    05:14 📝 Approach: Humans write text, train reward network, refine model with RL.
    05:57 ⚖️ Systems convert comparisons to ratings for reward network training.
    06:11 😄 RLHF successfully improves language models, including humor.
    Made with HARPA AI

  • @n45a_
    @n45a_ หลายเดือนก่อน

    ok everything makes sense now, thx

  • @0xeb-
    @0xeb- ปีที่แล้ว +1

    Good teaching.

  • @vamsinadh100
    @vamsinadh100 ปีที่แล้ว +1

    You are the Best

  • @0xeb-
    @0xeb- ปีที่แล้ว +1

    How long it takes to train a reward network? And how reliable would it be?

  • @RaulMartinezRME
    @RaulMartinezRME ปีที่แล้ว +1

    Great content!!

  • @neo4242002
    @neo4242002 6 หลายเดือนก่อน

    Who is this guy? He made all the complexity so simple with his words. Anyone know this gentleman name?

  • @stayhappy-forever
    @stayhappy-forever 8 หลายเดือนก่อน +3

    come back :(