20:41 Но в этом случае размерность вектора а будет равна m, а не d (размер эмбеддинга). И складывать вектор внимания a с x или у мы не сможем. 21:55 Аналогичная проблема. Мы получим n векторов размерности m (которая вообще говоря не совпадает с размерностью эмбединга) @DeepLearningSchool
13:13, я правильно понимаю, что на этой картинке Masked Self-Attention изображён неверно (как обычный Self-Attention), то есть его элементы не должны смотреть на токены вперёд?
Круто, лучше не встречал объяснения
наконец-то понял логику QKV, спасибо!
20:41
Но в этом случае размерность вектора а будет равна m, а не d (размер эмбеддинга). И складывать вектор внимания a с x или у мы не сможем.
21:55
Аналогичная проблема. Мы получим n векторов размерности m (которая вообще говоря не совпадает с размерностью эмбединга)
@DeepLearningSchool
13:13, я правильно понимаю, что на этой картинке Masked Self-Attention изображён неверно (как обычный Self-Attention), то есть его элементы не должны смотреть на токены вперёд?
Да, вы правы, стоило там убрать связи в будущее. Копировала картинку и забыла
7:25, в decoder'e, видимо должны быть x^d, как дальше по презентации, а не x^e
У вас на 17:25 softmax неправильный)
Выйдешь за меня?