How To Speed Up Training With Prioritized Experience Replay

แชร์
ฝัง
  • เผยแพร่เมื่อ 21 ก.ย. 2024

ความคิดเห็น • 41

  • @kevin5k2008
    @kevin5k2008 5 ปีที่แล้ว +2

    Loved your animation and how you explained this concept in a systematic yet easy to understand manner.

  • @ashwinsingh1325
    @ashwinsingh1325 4 ปีที่แล้ว +1

    This is explained so well! Hope you continue making content : )

  • @rishabhsheoran6959
    @rishabhsheoran6959 2 ปีที่แล้ว

    Amazing explanation! Loved your content. Keep making such awesome videos!

  • @unoti
    @unoti 4 ปีที่แล้ว

    You content is head and shoulder above the rest on the topic. Kudos! Reward + 1000! The music unnerves me as I try to concentrate on the ideas, though... reward -0.1

  • @swarnas2313
    @swarnas2313 3 ปีที่แล้ว

    Your explanations are very clear and understandable. Thank you :)

  • @TheAcujlGamer
    @TheAcujlGamer 3 ปีที่แล้ว

    This channel is awesome!

  • @undergrad4980
    @undergrad4980 3 ปีที่แล้ว

    Thank you for all the effort! Great video!

  • @andreamassacci7942
    @andreamassacci7942 5 ปีที่แล้ว +3

    Amazing content.

  • @joaopedrofelixamorim2534
    @joaopedrofelixamorim2534 2 ปีที่แล้ว

    Great video! Thank you for it!

  • @yatshunlee
    @yatshunlee 2 ปีที่แล้ว

    Thank you so much! I like your explaination:D

  • @adeemajassani5860
    @adeemajassani5860 3 ปีที่แล้ว

    Great explanation. Thanks!

  • @aayamshrestha9084
    @aayamshrestha9084 5 ปีที่แล้ว

    Awesome work !

  • @MasterScrat
    @MasterScrat 4 ปีที่แล้ว

    Very nice work! :D

  • @neilpradhan1312
    @neilpradhan1312 4 ปีที่แล้ว

    awesome !!1 great work

  • @adarshjeewajee939
    @adarshjeewajee939 5 ปีที่แล้ว +5

    pie torch :)

  • @danielortega494
    @danielortega494 3 ปีที่แล้ว

    Subscribed!

  • @sludgekicker
    @sludgekicker 4 ปีที่แล้ว +1

    Running the max() function over the complete priority buffer, hinders the performance by a substantial amount. I would storing the max probability in a variable, and compare it with newly added errors, and update the variable. This can then be used for adding new experience priorities.

    • @Небудьбараном-к1м
      @Небудьбараном-к1м 4 ปีที่แล้ว

      What about normalizing priorities (0 to 1)? This way we could just set max_priority to 1, and I think it would positively affect performance, keeping it stable!
      What do you think?

    • @julioresende1521
      @julioresende1521 2 ปีที่แล้ว

      A better way is to use Segment Trees...

    • @youcantellimreallybored3034
      @youcantellimreallybored3034 ปีที่แล้ว

      @@julioresende1521 But wouldn't the time complexity for using segment trees to compute max from index 0 to index N - 1 (length of the array) be the same as running the max function over the array?

    • @youcantellimreallybored3034
      @youcantellimreallybored3034 ปีที่แล้ว

      @@Небудьбараном-к1м I think in order to normalize priorities you first need to compute the max priority.

    • @julioresende1521
      @julioresende1521 ปีที่แล้ว

      @@youcantellimreallybored3034 you can use one variable to store the max value. The segment tree (sum) is useful to compute the roulette method.

  • @TheAcujlGamer
    @TheAcujlGamer 3 ปีที่แล้ว +1

    Good jokes on 1:43

  • @ArmanAli-ww7ml
    @ArmanAli-ww7ml 2 ปีที่แล้ว

    Do we need neural network to generate data for experience replay?

  • @ArmanAli-ww7ml
    @ArmanAli-ww7ml 2 ปีที่แล้ว

    Please explain it with real time example

  • @hitinjami1143
    @hitinjami1143 4 ปีที่แล้ว +1

    hii how do i save a trained agent?

    • @jmachida3
      @jmachida3 3 ปีที่แล้ว

      Hi :) You can save the weights of the neural networks at the end of the training proccess. In my case, I use the tensorflow.keras library, where the models have a method called save_weights.

  • @raghuramkalyanam
    @raghuramkalyanam 5 ปีที่แล้ว +5

    Nice content except i have to watch it at 0.5 speed.

    • @TheAcujlGamer
      @TheAcujlGamer 3 ปีที่แล้ว +1

      I watch it at 1.2 speed lol

  • @xxXXCarbon6XXxx
    @xxXXCarbon6XXxx 5 ปีที่แล้ว +1

    Hmm, I'm getting an error AttributeError: 'DoubleDQNAgent' object has no attribute 'sess'. Not sure why as a lot of the code looks like the previous???

    • @carlji2869
      @carlji2869 4 ปีที่แล้ว +1

      Had that too. It disappeared after I switched from Jupyter to colab

  • @Небудьбараном-к1м
    @Небудьбараном-к1м 4 ปีที่แล้ว

    Why not normalize priorities? I think that will boost the performance much

  • @ThePaypay88
    @ThePaypay88 4 ปีที่แล้ว +1

    Hard paper to understand

  • @superz5510
    @superz5510 4 ปีที่แล้ว +1

    Is there anyone like me who got lost when he started writing code

  • @ArmanAli-ww7ml
    @ArmanAli-ww7ml 2 ปีที่แล้ว

    Anyone who can write all these steps one by one?