ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
看coursera不懂的地方,就来看李老师的视频,回头再看,都明白了。
被老师的魅力所折服
谢谢李老师,非常受教!
非常感谢李宏毅老师
如果输出是连续值,比如角度、力度之类的,怎么办呢
李老师好,请问RL的随机性和VAE的随机性是类似的吗?VAE里面的z/x也都是从一个normal distribution sample 出来的,这个sample的过程和RL action的sample过程的随机性是一样的吗?
個人理解:當初始時候,這些 action 可能就是任意一種隨機,可能是 uniform distribution 之類的。在訓練之後,因為網路已經給訓練樣本影響,這時候所謂的隨機是類似 softmax 輸出的某一個隨機,它是根據輸入 s,想要往高 rewards 的一個決定,所以可能的一組輸出隨機向量就是 (right, left, fire) = (0.7, 0.1, 0.2) ,就是說 action right 有 70%.... 這樣的決定跟我們一般 supervised learning 分類器任務是不一樣的,分類器如果輸出 (0.7, 0.1, 0.2) ,會 always 決定 object(0.7),也就是沒有隨機性。
有同學可以說說 RL 跟 heuristic (啟發式) 的區別嗎?怎麼覺得好像有那麼點相像的影子呢~
本质都是makov chain,区别是一个需要训练,一个不需要训练
讲的比CS224系列的RL好
謝謝老師分享
谢谢李老师,有个问题咨询下,您讲了RL不一样的是a1是随机的,所以不一样。 但还没理解为什么要随机?
引入随机性就是不需要所有的行为都是被计算过的,让随机性的引入会出现新的结果,可能会出现神之一手。又或者是模型对同一种结果不同的判断倒是模型学习到新的可能,增加模型的健壮性。
前排板凳
小板凳坐好了
Pretty impressive.
Awesome
GOAT
我来了
可憐的小叮噹
看coursera不懂的地方,就来看李老师的视频,回头再看,都明白了。
被老师的魅力所折服
谢谢李老师,非常受教!
非常感谢李宏毅老师
如果输出是连续值,比如角度、力度之类的,怎么办呢
李老师好,请问RL的随机性和VAE的随机性是类似的吗?VAE里面的z/x也都是从一个normal distribution sample 出来的,这个sample的过程和RL action的sample过程的随机性是一样的吗?
個人理解:當初始時候,這些 action 可能就是任意一種隨機,可能是 uniform distribution 之類的。在訓練之後,因為網路已經給訓練樣本影響,這時候所謂的隨機是類似 softmax 輸出的某一個隨機,它是根據輸入 s,想要往高 rewards 的一個決定,所以可能的一組輸出隨機向量就是 (right, left, fire) = (0.7, 0.1, 0.2) ,就是說 action right 有 70%.... 這樣的決定跟我們一般 supervised learning 分類器任務是不一樣的,分類器如果輸出 (0.7, 0.1, 0.2) ,會 always 決定 object(0.7),也就是沒有隨機性。
有同學可以說說 RL 跟 heuristic (啟發式) 的區別嗎?怎麼覺得好像有那麼點相像的影子呢~
本质都是makov chain,区别是一个需要训练,一个不需要训练
讲的比CS224系列的RL好
謝謝老師分享
谢谢李老师,有个问题咨询下,您讲了RL不一样的是a1是随机的,所以不一样。 但还没理解为什么要随机?
引入随机性就是不需要所有的行为都是被计算过的,让随机性的引入会出现新的结果,可能会出现神之一手。又或者是模型对同一种结果不同的判断倒是模型学习到新的可能,增加模型的健壮性。
前排板凳
小板凳坐好了
Pretty impressive.
Awesome
GOAT
我来了
可憐的小叮噹