Лекция. Вариационные автокодировщики с дискретным латентным пространством (VQVAE)

แชร์
ฝัง
  • เผยแพร่เมื่อ 30 เม.ย. 2024
  • Автоэнкодеры 5. Занятие ведёт Нина Коновалова
    Ссылка на материалы занятия: drive.google.com/drive/folder...
    ---
    Deep Learning School при ФПМИ МФТИ
    Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
    Поддержать канал можно по ссылке dls.samcs.ru/support
    За нашими новостями можно следить здесь:
    Наш канал в TG: t.me/deep_learning_school_news
    Официальный сайт: dls.samcs.ru/
    Официальная группа ВК: dlschool_mipt
    ФПМИ МФТИ
    Официальный сайт: mipt.ru/education/departments...
    Магистратура: mipt.ru/education/departments...
    Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
    Онлайн-магистратура "Цифровая экономика": digec.online/
    Лаборатории ФПМИ: mipt.ru/education/departments...

ความคิดเห็น • 8

  • @hsqlk
    @hsqlk 13 วันที่ผ่านมา +1

    Хорошее объяснение: кратко, но в достаточном объеме для понимания темы

  • @user-iv5co4lu9g
    @user-iv5co4lu9g 14 วันที่ผ่านมา +2

    Нихера не понял ваще…

    • @yuryyarovikov3323
      @yuryyarovikov3323 13 วันที่ผ่านมา +1

      А вы с первого видео смотрите?

    • @yuryyarovikov3323
      @yuryyarovikov3323 13 วันที่ผ่านมา +1

      th-cam.com/video/3aAUxo1G1ks/w-d-xo.html

    • @hsqlk
      @hsqlk 13 วันที่ผ่านมา +2

      пересмотри видео через пару дней, потом будет легче

    • @user-ku4nn5pw8p
      @user-ku4nn5pw8p 9 วันที่ผ่านมา

      Грубо говоря, VQ-VAE - это про то, как апроксимировать довольно гибкие, сложные непрерывные распределения дискретными точками, которые более легковестные. То есть эти N точек (вектора из codebook'а) - это центроиды каких-то уплотнений, кластеров из реального распределения.
      Насколько я понял, тут обычный лосс (как MSE из AE) разбивается на 2 лосса - энкодера и декодера. Мы хотим, чтобы вектора из энкодера плотно группировались у N точек, которыми мы хотим апроксимировать пространство (это encoder loss, от которого текут градиенты по всей CNN энкодера) и мы хотим, чтобы восстановленное изображение из сжатого латентного пространства было максимально похожим на входное (это reconstruction loss, от которого текут градиенты по всей CNN декодера). Ну и т.к. мы инициализировали эти N точек рандомно, то с чего вообще мы взяли, что с помощью их вообще можно что-то нормально апроксимировать? Давайте и их двигать, но по чуть-чуть (добавив коэффициент бэтта), чтобы модель успевала сходиться. А то получится, что центроиды двигаются в сторону итоговых точек энкодера, а эти точки уже сместились в сторону центроидов, оказавшись в другом месте. В итоге так и будут они в противофазе туда сюда прыгать.
      Резюмируя еще раз: Есть реальное распределение в латентном (сжатом) пространстве, в VAE мы его апроксимировали композицией нормальных распределений (это как разложение функции в ряд Фурье на 100 синусод или в ряд Тейлора), а потом в VQ-VAE мы это распределение еще раз упростили до набора центроидов локальных уплотнений плотности.

    • @user-ku4nn5pw8p
      @user-ku4nn5pw8p 9 วันที่ผ่านมา

      Если что-то не понятно еще, то пиши)