强化学习与ChatGPT:PPO 算法介绍和实际应用(中文介绍)

แชร์
ฝัง
  • เผยแพร่เมื่อ 26 พ.ย. 2024

ความคิดเห็น • 23

  • @richardleon5149
    @richardleon5149 หลายเดือนก่อน

    思路清晰,比很多教授都讲得清楚,谢谢分享!

  • @邓宇杰
    @邓宇杰 4 หลายเดือนก่อน

    看了十五分钟还没看完,迫不及待想要评论,感觉老师好用心的解释,感觉比王树森老师的相关课程讲的更详细,太爱了,谢谢老师用爱发电

    • @dongdongqiaqia
      @dongdongqiaqia หลายเดือนก่อน

      王树森的材料适合快速入门, 李宏毅适合系统消化, 这个适合理解最新2年的应用

  • @张力-u2i
    @张力-u2i ปีที่แล้ว +1

    思路非常清晰!很多东西一下懂了,期待更多分享!

  • @冀炳宇-r8x
    @冀炳宇-r8x 9 หลายเดือนก่อน

    讲的真好!赞了博主!

  • @ernestzhang-y1s
    @ernestzhang-y1s 11 หลายเดือนก่อน

    说得很好

  • @kuisongzheng4655
    @kuisongzheng4655 ปีที่แล้ว +2

    小姐姐很棒

  • @huachengli1786
    @huachengli1786 8 หลายเดือนก่อน +1

    21:04 有一个没讲清楚的地方:2.a 用current policy 采集的数据,2.c为什么不直接用来update current policy,为什么需要2.b 用 old policy 和 current policy 一起计算expected reward。有同样疑问的同学往这看 th-cam.com/video/_B2oMdOVVJc/w-d-xo.html

  • @yizhangli2434
    @yizhangli2434 ปีที่แล้ว

    很清楚 谢谢

  • @husthu5667
    @husthu5667 ปีที่แล้ว +1

    讲的很好,ppt可以分享一下吗

  • @mixshare
    @mixshare ปีที่แล้ว +1

    👍🎉

  • @bingxie5361
    @bingxie5361 ปีที่แล้ว +1

    讲得很好,就是声音有点颤抖,不够稳。

  • @hkklkk6588
    @hkklkk6588 ปีที่แล้ว

    很好的视频,请问是博主自己讲解的吗,还是转载的呀,想看更多这个朋友的讲解~

  • @zitengwang9673
    @zitengwang9673 10 หลายเดือนก่อน

    chatgpt pretrain的方式是 prompt 和answer这种supervise learning的形式?

    • @tingtingyuan5647
      @tingtingyuan5647  10 หลายเดือนก่อน

      是的,提前准备好的问题和答案,答案相当于label

  • @huachengli1786
    @huachengli1786 8 หลายเดือนก่อน

    讲座这个人是不是连GPT1的paper都没看过。chatGPT怎么可能是用supervised learning 训练的?

  • @ShillerDev-v3o
    @ShillerDev-v3o ปีที่แล้ว

    哈哈,不从natural gradient和TPRO说起么

  • @michaeljefferson6871
    @michaeljefferson6871 ปีที่แล้ว +1

    读完博后后回国吗?

  • @bobyuan5007
    @bobyuan5007 ปีที่แล้ว

    lihongyi老师的slides

  • @闲云野鹤-g5w
    @闲云野鹤-g5w 9 หลายเดือนก่อน

    PPO=RLHF?

    • @tingtingyuan5647
      @tingtingyuan5647  9 หลายเดือนก่อน

      不是的,PPO只是其中RL训练的方法。

    • @闲云野鹤-g5w
      @闲云野鹤-g5w 9 หลายเดือนก่อน

      谢谢 @@tingtingyuan5647

  • @myfirstjump2
    @myfirstjump2 ปีที่แล้ว

    這內容應該是台大李宏毅老師的投影片