Off-policy Policy Optimization

แชร์
ฝัง
  • เผยแพร่เมื่อ 28 ธ.ค. 2024

ความคิดเห็น • 1

  • @BenOgorek
    @BenOgorek 4 ปีที่แล้ว +1

    Took me forever to find this - a lot of the same formulas and topics are in this paper: papers.nips.cc/paper/9086-surrogate-objectives-for-batch-policy-optimization-in-one-step-decision-making.pdf