Here, regarding the pairwise ranking loss, it’s actually based on the softmax probability: P(y_w is preferred over y_l) = exp(r(x, y_w; theta) - r(x, y_l; theta)) / ( exp(r(x, y_w; theta) - r(x, y_l; theta)) + exp(r(x, y_l; theta) - r(x, y_w; theta)) ) So, it’s standard in for ranking model
非常喜欢您的讲解。最喜欢的就是您基本没有中英文混着说,纯中文非常不错。
感谢老师,不知道是ChatGPT太有趣了还是老师讲解方式好,总之受益匪浅!
看了你很多视频,发现逻辑清晰,内容可以深入浅出。建议你在这个“论文精度”的playlist之外再开个专门讲DL基础的playlist,保证受欢迎。
Mu教Berkley课程 TH-cam有
厉害!
雖然大部分我都聽不懂,但還是看完了😂 謝謝你的解說🙏🏻👍🏻
Here, regarding the pairwise ranking loss, it’s actually based on the softmax probability:
P(y_w is preferred over y_l)
= exp(r(x, y_w; theta) - r(x, y_l; theta)) / ( exp(r(x, y_w; theta) - r(x, y_l; theta)) + exp(r(x, y_l; theta) - r(x, y_w; theta)) )
So, it’s standard in for ranking model
太感动了,很喜欢科技的小白,但读不懂论文,简直被戳中G点
太喜欢了Mu Li 非常需要AI领域精品论文和方法的讲解!
align台灣這邊會傾向翻譯成校準,中國大陸我之前待過會用對齊這個字,可以給老師參考一下
补充一个,在大陆的生物信息领域,align翻译为 比对
当然,应该还是 对齐 更接近英文的字面意思
大牛,如果要把chatgpt变成某一领域的expert,应该用这篇文章里的方法还是直接用openai的finetuning api更好?
感谢您的讲解! 我想请教您: Transformer是个非常漂亮的LLM的突破,给了GPT优秀的语言能力。有论文解释为什么好的语言能力,也等于知识记忆和逻辑归纳能力吗?🙏🙏🙏
逻辑归纳能力主要来自语料记忆。 语言模型主要还是文科生
非常棒的講解!!希望你能多出關於chatgpt的影片!!
同学们来开组会了
感谢李哥无私分享~!
谢谢老师的讲解!
请问 RLHF和传统的supervised 找人标groundtruth label是一回事换了个名字吗?还是不同的意思?
最小工作发布单元真的是高情商描述了:)
🤣
😂
谢谢大神,一直等着呢
感谢大佬,讲的很清楚🤩
沐神,aligned could be translated to 拉通对齐
align = 对齐,现已简称“勾对”,即沟通对齐。
真喜欢老师的视频
47:27这里有一个错误哦。4选2是生成6个排序,9选2生成36个排序,所以多了6倍,而不是9倍。这里博主说错了哦
他后面说了,原来的方法是只标最好的,所以只有4种比较关系
9:54 是啊, 以後不要再以為 "大力出奇蹟" 了
大佬可以把 divi into deep learning 的课也拌匀刀您频道吗? B站在美国好像不是很流畅😭
反向代理
B站有课程视频吗,账户名叫啥
用chatGPT讀GPT的三篇文章可以嗎?
step 3 的圖好像在影片上沒有
model 41:37
Great video!
align=拉通对齐(华为),简称对齐
aligned 翻译的话应该 对齐
请问为啥不用已有的问答数据库?比如知乎 quora之类的?
知乎上的数据用来做训练?那训练的结果会很情绪化,喜欢装逼或者喜欢喷人,或者小粉红思维
@@tokyoaflowertokyo8300 情绪化 装逼 或者政治内容请你移步其他地方,我这里是科学讨论。
14:00 只能說一語成讖了
这个是什么工具呀?
align 通常翻译成 对齐?
统一思想,意见
可以肯定这篇文章主要作者都是华人,排在前三位的很明显是华人的姓氏
强化学习 PPO
CloseAI 😀
good
57:41
awesome!
学习
在chatGPT无法理解问题的时候,确实提供的答案都是在一本正经的胡说八道
第一次比b站快
🎃
你真的看懂論文嗎?一開始就胡說八道了。InstructGPT的重點根本不是標數據,是RLHF和reward model,怎麼你說成一定要標一點數據這種論點?
你的专业应该就不是大语言模型方面,讲解的技术洞察力方面极度一般。