Proximal Policy Optimization Explained

提早下班！ChatGPT-4o with canvas新功能大解析，用Canvas快速完成工作！

Proximal Policy Optimization | ChatGPT uses this

โอ้ ไม่นะ! นั่นคือ ลิปสติกแท่งโปรดของเธอ!!!💄💛🖤

Andrey rates parts of my body😏

มวยมันส์สนั่นเมือง 26/11/2024

强化学习与ChatGPT：PPO 算法介绍和实际应用(中文介绍）

Pourquoi (布瓜的世界)

มุมมอง 10 616

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 26 พ.ย. 2024

ความคิดเห็น • 23

@richardleon5149 หลายเดือนก่อน
思路清晰，比很多教授都讲得清楚，谢谢分享！
@邓宇杰 4 หลายเดือนก่อน
看了十五分钟还没看完，迫不及待想要评论，感觉老师好用心的解释，感觉比王树森老师的相关课程讲的更详细，太爱了，谢谢老师用爱发电
@dongdongqiaqia หลายเดือนก่อน
王树森的材料适合快速入门，李宏毅适合系统消化，这个适合理解最新2年的应用
@张力-u2i ปีที่แล้ว ⁺¹
思路非常清晰！很多东西一下懂了，期待更多分享！
@冀炳宇-r8x 9 หลายเดือนก่อน
讲的真好！赞了博主！
@ernestzhang-y1s 11 หลายเดือนก่อน
说得很好
@kuisongzheng4655 ปีที่แล้ว ⁺²
小姐姐很棒
@huachengli1786 8 หลายเดือนก่อน ⁺¹
21:04 有一个没讲清楚的地方：2.a 用current policy 采集的数据，2.c为什么不直接用来update current policy，为什么需要2.b 用 old policy 和 current policy 一起计算expected reward。有同样疑问的同学往这看 th-cam.com/video/_B2oMdOVVJc/w-d-xo.html
@yizhangli2434 ปีที่แล้ว
很清楚谢谢
@husthu5667 ปีที่แล้ว ⁺¹
讲的很好，ppt可以分享一下吗
@mixshare ปีที่แล้ว ⁺¹
👍🎉
@bingxie5361 ปีที่แล้ว ⁺¹
讲得很好，就是声音有点颤抖，不够稳。
@hkklkk6588 ปีที่แล้ว
很好的视频，请问是博主自己讲解的吗，还是转载的呀，想看更多这个朋友的讲解~
@zitengwang9673 10 หลายเดือนก่อน
chatgpt pretrain的方式是 prompt 和answer这种supervise learning的形式？
@tingtingyuan5647 10 หลายเดือนก่อน
是的，提前准备好的问题和答案，答案相当于label
@huachengli1786 8 หลายเดือนก่อน
讲座这个人是不是连GPT1的paper都没看过。chatGPT怎么可能是用supervised learning 训练的？
@ShillerDev-v3o ปีที่แล้ว
哈哈，不从natural gradient和TPRO说起么
@michaeljefferson6871 ปีที่แล้ว ⁺¹
读完博后后回国吗？
@bobyuan5007 ปีที่แล้ว
lihongyi老师的slides
@闲云野鹤-g5w 9 หลายเดือนก่อน
PPO=RLHF？
@tingtingyuan5647 9 หลายเดือนก่อน
不是的，PPO只是其中RL训练的方法。
@闲云野鹤-g5w 9 หลายเดือนก่อน
谢谢 @@tingtingyuan5647
@myfirstjump2 ปีที่แล้ว
這內容應該是台大李宏毅老師的投影片

ต่อไป

เล่นอัตโนมัติ

Proximal Policy Optimization Explained

Proximal Policy Optimization Explained

提早下班！ChatGPT-4o with canvas新功能大解析，用Canvas快速完成工作！

提早下班！ChatGPT-4o with canvas新功能大解析，用Canvas快速完成工作！

Proximal Policy Optimization | ChatGPT uses this

Proximal Policy Optimization | ChatGPT uses this

โอ้ ไม่นะ! นั่นคือ ลิปสติกแท่งโปรดของเธอ!!!💄💛🖤

โอ้ ไม่นะ! นั่นคือ ลิปสติกแท่งโปรดของเธอ!!!💄💛🖤

Andrey rates parts of my body😏

Andrey rates parts of my body😏

มวยมันส์สนั่นเมือง 26/11/2024

มวยมันส์สนั่นเมือง 26/11/2024

Mix the spurious with the genuine #joker #cosplay#Harriet Quinn

Mix the spurious with the genuine #joker #cosplay#Harriet Quinn

【生成式AI】窮人如何低資源復刻自己的 ChatGPT

【生成式AI】窮人如何低資源復刻自己的 ChatGPT

What is Actor-Critic?

What is Actor-Critic?

深度强化学习(3/5)：策略学习 Policy-Based Reinforcement Learning

深度强化学习(3/5)：策略学习 Policy-Based Reinforcement Learning

L4 TRPO and PPO (Foundations of Deep RL Series)

L4 TRPO and PPO (Foundations of Deep RL Series)

InstructGPT 论文精读【论文精读】

InstructGPT 论文精读【论文精读】

深度强化学习(1/5)：基本概念 Deep Reinforcement Learning (1/5)

深度强化学习(1/5)：基本概念 Deep Reinforcement Learning (1/5)

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) - 增強式學習跟機器學習一樣都是三個步驟

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟

Generative AI in a Nutshell - how to survive and thrive in the age of AI

Generative AI in a Nutshell - how to survive and thrive in the age of AI

IRENE 아이린 'Like A Flower' MV

IRENE 아이린 'Like A Flower' MV

ไฮไลท์ฟุตบอล บุนเดสลีกา | เลเวอร์คูเซ่น 5-2 ไฮเดนไฮม์ | 23 พ.ย. 67

ไฮไลท์ฟุตบอล บุนเดสลีกา | เลเวอร์คูเซ่น 5-2 ไฮเดนไฮม์ | 23 พ.ย. 67

[LIVE] : ONE ลุมพินี 88 | คู่เอก "ป้อมเพชร vs อัสลามจอน"

[LIVE] : ONE ลุมพินี 88 | คู่เอก "ป้อมเพชร vs อัสลามจอน"

Angelina Jolie and Brad Pitt’s son Knox makes rare public appearance at Governor Awards

Angelina Jolie and Brad Pitt’s son Knox makes rare public appearance at Governor Awards

โอ้ ไม่นะ! นั่นคือ ลิปสติกแท่งโปรดของเธอ!!!💄💛🖤

โอ้ ไม่นะ! นั่นคือ ลิปสติกแท่งโปรดของเธอ!!!💄💛🖤

ร้องเพลงสั่งข้าว Ver.សង្រ្កាន្តស្គាល់ស្នេហ៍ (SANGKRAN MAGIC) - VANNDA #vannda #ร้องเพลงสั่งข้าว

ร้องเพลงสั่งข้าว Ver.សង្រ្កាន្តស្គាល់ស្នេហ៍ (SANGKRAN MAGIC) - VANNDA #vannda #ร้องเพลงสั่งข้าว

นี่ลูกผม! แม่เธอเกลียดขรี้หน้าผม เลยบอกว่านี่ไม่ใช่ลูกผม! #สาระแทบไม่มี

นี่ลูกผม! แม่เธอเกลียดขรี้หน้าผม เลยบอกว่านี่ไม่ใช่ลูกผม! #สาระแทบไม่มี

"ธัญพร" พลิกชนะเลือกตั้ง นายก อบจ.สุรินทร์ แซงแชมป์เก่า นับคะแนนช่วงท้าย | Thai PBS News

"ธัญพร" พลิกชนะเลือกตั้ง นายก อบจ.สุรินทร์ แซงแชมป์เก่า นับคะแนนช่วงท้าย | Thai PBS News