[UA] NaUKMA RL Spring '24, Lecture/Practice 5 - Actor-Critics

แชร์
ฝัง
  • เผยแพร่เมื่อ 11 ต.ค. 2024
  • A2C, policy-based actor, value-based critic, TD error in AC, advantage function.
    Panda-Gym, Stable-baselines3, A2C on PandaReachDense-v3, observation normalization.

ความคิดเห็น •