REINFORCE (Vanilla Policy Gradient VPG) Algorithm Explained | Deep Reinforcement Learning

แชร์
ฝัง
  • เผยแพร่เมื่อ 2 ธ.ค. 2024

ความคิดเห็น • 10

  • @johnnycode
    @johnnycode  7 หลายเดือนก่อน +3

    Let me know if you want the code walkthru and demo.

    • @peterhpchen
      @peterhpchen 5 หลายเดือนก่อน

      Where is the code?

    • @johnnycode
      @johnnycode  5 หลายเดือนก่อน

      @@peterhpchen Here you go github.com/johnnycode8/gym_solutions/blob/main/cliff_walking_reinforce.py

  • @kimiochang
    @kimiochang 7 หลายเดือนก่อน +2

    Thanks for the good work. I am still practicing the FrozenLake DQL+CNN and wonder how to train the model on CUDA as the training time keeps increasing.

    • @johnnycode
      @johnnycode  7 หลายเดือนก่อน +1

      Thank you for the continual support, Andy! Here are some general guidelines on using CUDA:
      # First, make sure you have CUDA installed properly and is supported by your GPU
      device = 'cuda' if torch.cuda.is_available() else 'cpu'
      print(device)
      # Then, anywhere that uses the network should be sent to CUDA, for example:
      DQN(....).to(device)
      # Also, anywhere that deals with Tensors should be sent to CUDA, for example:
      torch.FloatTensor(...).to(device)
      torch.IntTensor(...).to(device)
      Note that when you run your code and Pytorch complains that not everything is on the same device, it means you didn't send something to CUDA using "to(device)".

    • @kimiochang
      @kimiochang 7 หลายเดือนก่อน

      @@johnnycode thanks a lot for the help. And It works!

    • @johnnycode
      @johnnycode  6 หลายเดือนก่อน

      @@kimiochangThat’s great 👍

  • @patrykperonski5459
    @patrykperonski5459 4 หลายเดือนก่อน

    One question why it has to be log? It is a bit confusing part to be honest.

    • @johnnycode
      @johnnycode  4 หลายเดือนก่อน

      This page explains the math that arrives to log(): mcneela.github.io/math/2018/04/18/A-Tutorial-on-the-REINFORCE-Algorithm.html

    • @nguyenmanh466
      @nguyenmanh466 4 หลายเดือนก่อน

      Check out OpenAI’s SpinningUp, they explained that.