DeepSeek R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (paper explained)

แชร์
ฝัง
  • เผยแพร่เมื่อ 4 ก.พ. 2025

ความคิดเห็น • 13

  • @PoleesuSrinivasCh
    @PoleesuSrinivasCh 3 วันที่ผ่านมา +1

    A Better explanation even which will lead in all Sources.

  • @SapienSpace
    @SapienSpace 7 วันที่ผ่านมา +2

    Fascinating review. I glanced at the paper, particularly at GRPO and GAE. GRPO looks a lot like Fuzzy-Logic with nodes or attention heads adapted to experience (e.g. such as "relative" via using K-means group clustering).
    Looking more deeply at GAE (Generalized Advantage Estimation) it is for an adaptive control system.
    I would not be surprised if the origin of the deep learning usage of Theta is an angle of a pendulum.

    • @SapienSpace
      @SapienSpace 7 วันที่ผ่านมา +1

      Overlapping membership functions used in Fuzzy Logic is very similar to KL.

    • @AIBites
      @AIBites  5 วันที่ผ่านมา

      Don't have much experience with fuzzy logic. But I like your perspective 🙂

  • @KhurramXahiL-py5dq
    @KhurramXahiL-py5dq 7 วันที่ผ่านมา +1

    Great explanation

    • @AIBites
      @AIBites  5 วันที่ผ่านมา

      Thanks 👍

  • @francesclopez6192
    @francesclopez6192 7 วันที่ผ่านมา +1

    Thank you for your explanation !

    • @AIBites
      @AIBites  5 วันที่ผ่านมา

      My pleasure 😊

  • @mukeshreddy7909
    @mukeshreddy7909 6 วันที่ผ่านมา +1

    great video

    • @AIBites
      @AIBites  5 วันที่ผ่านมา

      Thanks!

  • @amortalbeing
    @amortalbeing 7 วันที่ผ่านมา +1

    thanks a lot.

    • @AIBites
      @AIBites  5 วันที่ผ่านมา

      Most welcome!