Лекция. Архитектура Transformer. Введение, Transformer Encoder

แชร์
ฝัง
  • เผยแพร่เมื่อ 21 มี.ค. 2024
  • Занятие ведёт Татьяна Гайнцева
    Ссылка на материалы занятия: docs.google.com/presentation/...
    ---
    Deep Learning School при ФПМИ МФТИ
    Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
    Поддержать канал можно по ссылке boosty.to/deeplearningschool
    За нашими новостями можно следить здесь:
    Наш канал в TG: t.me/deep_learning_school_news
    Официальный сайт: dls.samcs.ru/
    Официальная группа ВК: dlschool_mipt
    ФПМИ МФТИ
    Официальный сайт: mipt.ru/education/departments...
    Магистратура: mipt.ru/education/departments...
    Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
    Онлайн-магистратура "Цифровая экономика": digec.online/
    Лаборатории ФПМИ: mipt.ru/education/departments...

ความคิดเห็น • 23

  • @jookovjook
    @jookovjook 2 หลายเดือนก่อน

    Очень крутое объяснение энкодера! Спасибо 🙏

    • @DeepLearningSchool
      @DeepLearningSchool  2 หลายเดือนก่อน

      да, спасибо за замечание, это опечатка(

  • @jookovjook
    @jookovjook 2 หลายเดือนก่อน +3

    В 16:51 при подсчете σ_i выражение (x^e_j - μ_i) должно быть в квадрате. Нет?

    • @w01fer86
      @w01fer86 2 หลายเดือนก่อน

      Ага, без квадрата эта сумма просто 0 будет)

  • @justaseeker5530
    @justaseeker5530 20 วันที่ผ่านมา

    На слайде "Идея Transformer" доброе утро переведено, как good night

  • @94SERP
    @94SERP 2 หลายเดือนก่อน

    10:17 сумма вероятностей после Softmax 1.1

  • @user-jw1rg1tg9g
    @user-jw1rg1tg9g 2 หลายเดือนก่อน

    Не очень понятно пояснение, почему нельзя использовать One Hot Encoding позиции (30:01). Поясните, пожалуйста. То, что по памяти неэффективно для больших входов в целом понятно.

    • @DeepLearningSchool
      @DeepLearningSchool  2 หลายเดือนก่อน +1

      как минимум потому, что one-hot encoding требует, чтобы векторы были длины количества элементов. Т.е. если у вас в последовательности n токенов, то чтобы закодировать их места one-hot векторами, нужны векторы длины минимум n. А мы хотим, чтобы position encodings суммировались с нашими векторами эмбеддингов

  • @user-qm2ek4iv4q
    @user-qm2ek4iv4q 2 หลายเดือนก่อน

    не совсем понял - мы складываем вектор внимания а с соответствующим эмбеддингом... но у них же размерности разные. эмбеддинг может быть длиной в несколько сотен значений ,а вектор внимания в данном случае ,содержит всего 4 значения... как мы их складываем?

    • @user-jw1rg1tg9g
      @user-jw1rg1tg9g 2 หลายเดือนก่อน

      Почему вы решили, что вектор внимания содержит 4 значения? Это не так. Размерности векторов внимания и эмбеддинга одинаковые.

    • @user-qm2ek4iv4q
      @user-qm2ek4iv4q 2 หลายเดือนก่อน

      @@user-jw1rg1tg9g спасибо, я наверно не правильно понял. Надо пересмотреть ролик

  • @Ksorz
    @Ksorz 2 หลายเดือนก่อน

    Про какую дополнительную статью идет речь? 34:07
    Что-то я не вижу ее на Степике

    • @DeepLearningSchool
      @DeepLearningSchool  2 หลายเดือนก่อน +1

      Добавим, вчера не успели, извините

    • @Ksorz
      @Ksorz 2 หลายเดือนก่อน

      Спасибо :) @@DeepLearningSchool

    • @user-jw1rg1tg9g
      @user-jw1rg1tg9g 2 หลายเดือนก่อน

      @@Ksorz подскажите, о каком курсе степика идет речь? немедленно присоединюсь)

    • @mi-cher
      @mi-cher 2 หลายเดือนก่อน

      @@user-jw1rg1tg9g "Deep Learning (семестр 2, весна 2024)". Ссылки Ютуб режет

    • @DeepLearningSchool
      @DeepLearningSchool  2 หลายเดือนก่อน

      @@user-jw1rg1tg9g вот: stepik.org/course/196142/syllabus

  • @deadmorose4741
    @deadmorose4741 2 หลายเดือนก่อน

    А где предыдущая лекция про голый attention?

    • @DeepLearningSchool
      @DeepLearningSchool  2 หลายเดือนก่อน +1

      вот: th-cam.com/video/Fki-Xe3CGg8/w-d-xo.htmlfeature=shared

  • @palevas
    @palevas หลายเดือนก่อน

    Яндекс даже раньше самого Гугла выкатил трансформер для перевода

  • @hazeovich4530
    @hazeovich4530 2 หลายเดือนก่อน

    Из этого видео узнал больше про DL чем за семестр в унике. Привет из ДВФУ🤡

  • @user-jc5ky2ei5l
    @user-jc5ky2ei5l 2 หลายเดือนก่อน

    Может кто-нить объяснить, как из токенов получаются ембеддинги?

    • @Ksorz
      @Ksorz 2 หลายเดือนก่อน

      Это было в первой лекции курса (th-cam.com/video/WbtQzAvhnRI/w-d-xo.html - Word2Vec, GloVe, FastText). Там был довольно подробный разбор и мы обучали эмбеддинги самостоятельно. Однако потом всё это заменил один единственный слой в нейросети, который что-то там внутри себя делает с токенами и получаются эмбеддинги. Действительно, тут нам особо не объясняли, как теперь это работает, но полагаю, внутри этого слоя что-то подобное