Лекция. Архитектура Transformer. Decoder, QKV Attention

แชร์
ฝัง
  • เผยแพร่เมื่อ 16 ธ.ค. 2024

ความคิดเห็น • 8

  • @no_cola
    @no_cola 3 หลายเดือนก่อน +4

    Круто, лучше не встречал объяснения

  • @sulimovp
    @sulimovp 8 หลายเดือนก่อน +5

    наконец-то понял логику QKV, спасибо!

  • @АртемСавельев-о8е
    @АртемСавельев-о8е 7 หลายเดือนก่อน +2

    20:41
    Но в этом случае размерность вектора а будет равна m, а не d (размер эмбеддинга). И складывать вектор внимания a с x или у мы не сможем.
    21:55
    Аналогичная проблема. Мы получим n векторов размерности m (которая вообще говоря не совпадает с размерностью эмбединга)
    @DeepLearningSchool

  • @Ksorz
    @Ksorz 8 หลายเดือนก่อน +1

    13:13, я правильно понимаю, что на этой картинке Masked Self-Attention изображён неверно (как обычный Self-Attention), то есть его элементы не должны смотреть на токены вперёд?

    • @DeepLearningSchool
      @DeepLearningSchool  8 หลายเดือนก่อน

      Да, вы правы, стоило там убрать связи в будущее. Копировала картинку и забыла

  • @ДаниилСеров-ж4ч
    @ДаниилСеров-ж4ч 8 หลายเดือนก่อน

    7:25, в decoder'e, видимо должны быть x^d, как дальше по презентации, а не x^e

  • @BrainUniverse
    @BrainUniverse 6 หลายเดือนก่อน

    У вас на 17:25 softmax неправильный)

  • @ProCLickM
    @ProCLickM 2 หลายเดือนก่อน

    Выйдешь за меня?