Transformer Attention Explained By Example

แชร์
ฝัง
  • เผยแพร่เมื่อ 21 ส.ค. 2024

ความคิดเห็น • 5

  • @luthandonxumalo6163
    @luthandonxumalo6163 หลายเดือนก่อน

    Amazing videos on Transformers, really enjoyed them

    • @KieCodes
      @KieCodes  หลายเดือนก่อน +1

      Thank you. You are very welcome.

  • @MutigerBriefkasten
    @MutigerBriefkasten 7 หลายเดือนก่อน +2

    Thank you for the great explanation. Greets from Austria

    • @KieCodes
      @KieCodes  7 หลายเดือนก่อน

      I am happy you liked it. Grüße zurück!

  • @samson6707
    @samson6707 5 หลายเดือนก่อน

    how does the gaussian initialization of the key and query values factor into the model? wouldnt it be enough to initialize the learnable parameters? in the second iteration of the processing, the key and query values would be computed based on the parameters and therefore overwritten anyways.