【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) - 增強式學習跟機器學習一樣都是三個步驟

แชร์
ฝัง
  • เผยแพร่เมื่อ 26 พ.ย. 2024

ความคิดเห็น • 20

  • @hasszhao
    @hasszhao 2 ปีที่แล้ว +2

    看coursera不懂的地方,就来看李老师的视频,回头再看,都明白了。

  • @王森-h9m
    @王森-h9m 3 ปีที่แล้ว +5

    被老师的魅力所折服

  • @jasonli7480
    @jasonli7480 3 ปีที่แล้ว +6

    谢谢李老师,非常受教!

  • @Leisure-k2y
    @Leisure-k2y 3 ปีที่แล้ว +2

    非常感谢李宏毅老师

  • @difeitang1823
    @difeitang1823 2 ปีที่แล้ว +1

    如果输出是连续值,比如角度、力度之类的,怎么办呢

  • @williamxing1951
    @williamxing1951 2 ปีที่แล้ว

    李老师好,请问RL的随机性和VAE的随机性是类似的吗?VAE里面的z/x也都是从一个normal distribution sample 出来的,这个sample的过程和RL action的sample过程的随机性是一样的吗?

    • @patrickruan2290
      @patrickruan2290 2 ปีที่แล้ว +3

      個人理解:當初始時候,這些 action 可能就是任意一種隨機,可能是 uniform distribution 之類的。在訓練之後,因為網路已經給訓練樣本影響,這時候所謂的隨機是類似 softmax 輸出的某一個隨機,它是根據輸入 s,想要往高 rewards 的一個決定,所以可能的一組輸出隨機向量就是 (right, left, fire) = (0.7, 0.1, 0.2) ,就是說 action right 有 70%.... 這樣的決定跟我們一般 supervised learning 分類器任務是不一樣的,分類器如果輸出 (0.7, 0.1, 0.2) ,會 always 決定 object(0.7),也就是沒有隨機性。

  • @romanlo8404
    @romanlo8404 2 ปีที่แล้ว +1

    有同學可以說說 RL 跟 heuristic (啟發式) 的區別嗎?怎麼覺得好像有那麼點相像的影子呢~

    • @sgeusveuev7691
      @sgeusveuev7691 2 ปีที่แล้ว

      本质都是makov chain,区别是一个需要训练,一个不需要训练

  • @nijiasheng711
    @nijiasheng711 2 ปีที่แล้ว +8

    讲的比CS224系列的RL好

  • @GenApe_RDs
    @GenApe_RDs ปีที่แล้ว +1

    謝謝老師分享

  • @魏泽坤
    @魏泽坤 ปีที่แล้ว

    谢谢李老师,有个问题咨询下,您讲了RL不一样的是a1是随机的,所以不一样。 但还没理解为什么要随机?

    • @王杨-e7q
      @王杨-e7q 7 หลายเดือนก่อน

      引入随机性就是不需要所有的行为都是被计算过的,让随机性的引入会出现新的结果,可能会出现神之一手。又或者是模型对同一种结果不同的判断倒是模型学习到新的可能,增加模型的健壮性。

  • @家仟
    @家仟 2 ปีที่แล้ว +1

    前排板凳

  • @skywalker0803r
    @skywalker0803r 3 ปีที่แล้ว +4

    小板凳坐好了

  • @haitaozeng4860
    @haitaozeng4860 3 ปีที่แล้ว +2

    Pretty impressive.

  • @steven-lin
    @steven-lin 3 ปีที่แล้ว +2

    Awesome

  • @XiaozhouTan
    @XiaozhouTan 5 หลายเดือนก่อน

    GOAT

  • @Jack-sk9hy
    @Jack-sk9hy 3 ปีที่แล้ว +1

    我来了

  • @KnowNothingJohnSnow
    @KnowNothingJohnSnow 3 ปีที่แล้ว +7

    可憐的小叮噹