Reinforcement Learning from Human Feedback (RLHF) & Direct Preference Optimization (DPO) Explained

CS 285: Eric Mitchell: Reinforcement Learning from Human Feedback: Algorithms & Applications

Open Innovation Factory 2024 Information Session - September 9, 2024

🔴Live สด! 𝐏𝐔𝐁𝐆 𝐍𝐀𝐓𝐈𝐎𝐍𝐒 𝐂𝐔𝐏 𝟐𝟎𝟐𝟒 วันที่ 3 l พับจีทีมชาติ

ผิดตั้งแต่เริ่ม (ชู้รัก) - เล็กสเร็น (Official MV)

Zoo-Happy จระเข้ไม่ใช่ลิง #zoohappyanimals

DPO V.S. RLHF 模型微调

Alice in AI-land

มุมมอง 2 044

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 10 ก.ย. 2024

ความคิดเห็น • 7

@neurite001 7 หลายเดือนก่อน
激动万分啊, 也像 Andrew Ng 一样, 在咖啡馆里差一点就跳起来, 终于有中文博主讲解DPO了
@AliceInAILand 7 หลายเดือนก่อน ⁺³
😄 我也是看到这么漂亮的证明满心欢喜；今天还看到meta家已经用这个self-rewarding的方法fine tune llama2-70b 说在一些benchmark上效果比gpt4好arxiv.org/abs/2401.10020
@iwisher666 5 หลายเดือนก่อน ⁺¹
加油加油
@theodoruszhou2692 6 หลายเดือนก่อน
Thank you very much for the video, the explanations were very clear, and I learned a lot. Looking forward to your next work～
@AliceInAILand 6 หลายเดือนก่อน
Glad it was helpful :)
@fungpangfan8825 2 หลายเดือนก่อน
❤🎉
@user-bz5be9bj4k 3 หลายเดือนก่อน
能给数学并不好的人（我）解答一下吗？
RLHF和DPO的共同点都是preference对子，DPO不依赖于reward model和RL，那是不是说DPO的训练数据会少很多？因为preference也是人来评判的，没用到其他模型作为近似。我感觉reward model也有是一个数据增广的作用，或者bootstrapping的感觉。
也很想知道，怎么把调整模型输出某个句子出现的概率转换成梯度的，最近看到一篇叫做KTO，说是不依赖preference对子，只要一个例子和一个二元判断受人类欢迎和不受欢迎就够了。不清楚为什么对子为啥这么重要。
如果可以，能请你更多用自然语言解释解释和对比一下这些方法论之间的异同吗？也希望节目时间能短一点。。。谢谢你！🤗

ต่อไป

เล่นอัตโนมัติ

Reinforcement Learning from Human Feedback (RLHF) & Direct Preference Optimization (DPO) Explained

Reinforcement Learning from Human Feedback (RLHF) & Direct Preference Optimization (DPO) Explained

CS 285: Eric Mitchell: Reinforcement Learning from Human Feedback: Algorithms & Applications

CS 285: Eric Mitchell: Reinforcement Learning from Human Feedback: Algorithms & Applications

Open Innovation Factory 2024 Information Session - September 9, 2024

Open Innovation Factory 2024 Information Session - September 9, 2024

🔴Live สด! 𝐏𝐔𝐁𝐆 𝐍𝐀𝐓𝐈𝐎𝐍𝐒 𝐂𝐔𝐏 𝟐𝟎𝟐𝟒 วันที่ 3 l พับจีทีมชาติ

🔴Live สด! 𝐏𝐔𝐁𝐆 𝐍𝐀𝐓𝐈𝐎𝐍𝐒 𝐂𝐔𝐏 𝟐𝟎𝟐𝟒 วันที่ 3 l พับจีทีมชาติ

ผิดตั้งแต่เริ่ม (ชู้รัก) - เล็กสเร็น (Official MV)

ผิดตั้งแต่เริ่ม (ชู้รัก) - เล็กสเร็น (Official MV)

Zoo-Happy จระเข้ไม่ใช่ลิง #zoohappyanimals

Zoo-Happy จระเข้ไม่ใช่ลิง #zoohappyanimals

irl stream in Thailand 🇹🇭

irl stream in Thailand 🇹🇭

Aligning LLMs with Direct Preference Optimization

Aligning LLMs with Direct Preference Optimization

Direct Preference Optimization (DPO) explained: Bradley-Terry model, log probabilities, math

Direct Preference Optimization (DPO) explained: Bradley-Terry model, log probabilities, math

Has Generative AI Already Peaked? - Computerphile

Has Generative AI Already Peaked? - Computerphile

Lightning Talk: TorchRL - RLHF Support - Vincent Moens, Meta

Lightning Talk: TorchRL - RLHF Support - Vincent Moens, Meta

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

【生成式AI導論 2024】第8講：大型語言模型修練史 - 第三階段: 參與實戰，打磨技巧 (Reinforcement Learning from Human Feedback, RLHF)

【生成式AI導論 2024】第8講：大型語言模型修練史 — 第三階段: 參與實戰，打磨技巧 (Reinforcement Learning from Human Feedback, RLHF)

What are AI Agents?

What are AI Agents?

Reinforcement Learning from Human Feedback: From Zero to chatGPT

Reinforcement Learning from Human Feedback: From Zero to chatGPT

台積電秒填息?反怕這件事中秋變盤滿足1條件向上突破華爾街為何再逼宮聯準會? 劉德音好心洩明牌這4檔《鈔錢部署》盧燕俐 ft.李永年 20240910

台積電秒填息?反怕這件事中秋變盤滿足1條件向上突破華爾街為何再逼宮聯準會? 劉德音好心洩明牌這4檔《鈔錢部署》盧燕俐 ft.李永年 20240910

สร้างห้องลับเตียงตู้ปลา!! ทำที่นอนเป็นอควาเรียมในฝัน!!

สร้างห้องลับเตียงตู้ปลา!! ทำที่นอนเป็นอควาเรียมในฝัน!!

🔴 เปิดตัว iPhone 16 เวอร์ชั่นไทย ม่วนๆจอยๆ ไปด้วยกัน

🔴 เปิดตัว iPhone 16 เวอร์ชั่นไทย ม่วนๆจอยๆ ไปด้วยกัน

🔴Live โหนกระแส ของแทร่!! ไม่มี ไม่หนี ไม่จ่าย ศาลสั่งชดใช้ 8 ล้าน แต่จ่ายพันเดียว

🔴Live โหนกระแส ของแทร่!! ไม่มี ไม่หนี ไม่จ่าย ศาลสั่งชดใช้ 8 ล้าน แต่จ่ายพันเดียว

ของใครของมัน - เมล ตวิษา X ปิ๋ม ชุติมา

ของใครของมัน - เมล ตวิษา X ปิ๋ม ชุติมา

โจนาธาน แฮ็กเกอร์ตี vs ซุปเปอร์เล็ก เกียรติหมู่ 9 (วันเดียว 1 ล้านวิว) | ONE 168 | 7 ก.ย.67 | CH7HD

โจนาธาน แฮ็กเกอร์ตี vs ซุปเปอร์เล็ก เกียรติหมู่ 9 (วันเดียว 1 ล้านวิว) | ONE 168 | 7 ก.ย.67 | CH7HD

บวงสรวง #เกมรักปาฏิหาริย์ วันนี้ ตื่นเต้นรอชมพระนาง #ฟิล์มธนภัทร และ #มินพีชญา ที่มาพบกันครั้งแรก

บวงสรวง #เกมรักปาฏิหาริย์ วันนี้ ตื่นเต้นรอชมพระนาง #ฟิล์มธนภัทร และ #มินพีชญา ที่มาพบกันครั้งแรก

คุณคะ แอดเสียอาการตามพี่มี่ค่ะ ดูไปยิ้มไปเฉยเลยอ่ะ แกรเค้าปลื้มกันนนน #ต่ายอรทัย #palmy #ปาล์มมี่

คุณคะ แอดเสียอาการตามพี่มี่ค่ะ ดูไปยิ้มไปเฉยเลยอ่ะ แกรเค้าปลื้มกันนนน #ต่ายอรทัย #palmy #ปาล์มมี่