Policy Gradient Methods Tutorial

แชร์
ฝัง
  • เผยแพร่เมื่อ 4 ธ.ค. 2024

ความคิดเห็น • 8

  • @anilkurkcu3389
    @anilkurkcu3389 6 ปีที่แล้ว +5

    At 1:20, I guess that Policy = pi(a | s).

  • @paedrufernando2351
    @paedrufernando2351 4 ปีที่แล้ว

    You deserve a nobel Prize

  • @TheMyrkiriad
    @TheMyrkiriad 4 ปีที่แล้ว

    Can you explain the rationale for BELLMAN_STEPS (instead of taking every step) ? Also, how do you tune this parameter ?

  • @pavelkoryakin5750
    @pavelkoryakin5750 5 ปีที่แล้ว

    03:11 what use of s prime ?

  • @hazemahmed8333
    @hazemahmed8333 4 ปีที่แล้ว

    thank you so much I really need it !!

  • @TheMyrkiriad
    @TheMyrkiriad 4 ปีที่แล้ว

    The code seems to perform the same, if not better, without the entropy loss (ENTROPY_BETA = 0). Also, I don't really understand the reason of entropy loss.

  • @rohanm7388
    @rohanm7388 4 ปีที่แล้ว +1

    Seems like you are just reading the slides in all the videos

  • @TheMyrkiriad
    @TheMyrkiriad 4 ปีที่แล้ว +1

    I feel like PTAN lib introduces unecessary complexity. Not ideal for a tutorial...