ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
思路清晰,比很多教授都讲得清楚,谢谢分享!
看了十五分钟还没看完,迫不及待想要评论,感觉老师好用心的解释,感觉比王树森老师的相关课程讲的更详细,太爱了,谢谢老师用爱发电
王树森的材料适合快速入门, 李宏毅适合系统消化, 这个适合理解最新2年的应用
思路非常清晰!很多东西一下懂了,期待更多分享!
讲的真好!赞了博主!
说得很好
小姐姐很棒
21:04 有一个没讲清楚的地方:2.a 用current policy 采集的数据,2.c为什么不直接用来update current policy,为什么需要2.b 用 old policy 和 current policy 一起计算expected reward。有同样疑问的同学往这看 th-cam.com/video/_B2oMdOVVJc/w-d-xo.html
很清楚 谢谢
讲的很好,ppt可以分享一下吗
👍🎉
讲得很好,就是声音有点颤抖,不够稳。
很好的视频,请问是博主自己讲解的吗,还是转载的呀,想看更多这个朋友的讲解~
chatgpt pretrain的方式是 prompt 和answer这种supervise learning的形式?
是的,提前准备好的问题和答案,答案相当于label
讲座这个人是不是连GPT1的paper都没看过。chatGPT怎么可能是用supervised learning 训练的?
哈哈,不从natural gradient和TPRO说起么
读完博后后回国吗?
lihongyi老师的slides
PPO=RLHF?
不是的,PPO只是其中RL训练的方法。
谢谢 @@tingtingyuan5647
這內容應該是台大李宏毅老師的投影片
思路清晰,比很多教授都讲得清楚,谢谢分享!
看了十五分钟还没看完,迫不及待想要评论,感觉老师好用心的解释,感觉比王树森老师的相关课程讲的更详细,太爱了,谢谢老师用爱发电
王树森的材料适合快速入门, 李宏毅适合系统消化, 这个适合理解最新2年的应用
思路非常清晰!很多东西一下懂了,期待更多分享!
讲的真好!赞了博主!
说得很好
小姐姐很棒
21:04 有一个没讲清楚的地方:2.a 用current policy 采集的数据,2.c为什么不直接用来update current policy,为什么需要2.b 用 old policy 和 current policy 一起计算expected reward。有同样疑问的同学往这看 th-cam.com/video/_B2oMdOVVJc/w-d-xo.html
很清楚 谢谢
讲的很好,ppt可以分享一下吗
👍🎉
讲得很好,就是声音有点颤抖,不够稳。
很好的视频,请问是博主自己讲解的吗,还是转载的呀,想看更多这个朋友的讲解~
chatgpt pretrain的方式是 prompt 和answer这种supervise learning的形式?
是的,提前准备好的问题和答案,答案相当于label
讲座这个人是不是连GPT1的paper都没看过。chatGPT怎么可能是用supervised learning 训练的?
哈哈,不从natural gradient和TPRO说起么
读完博后后回国吗?
lihongyi老师的slides
PPO=RLHF?
不是的,PPO只是其中RL训练的方法。
谢谢 @@tingtingyuan5647
這內容應該是台大李宏毅老師的投影片