Лекция. Вариационные автокодировщики с дискретным латентным пространством (VQVAE)

Deep Learning School

มุมมอง 892

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 30 เม.ย. 2024
Автоэнкодеры 5. Занятие ведёт Нина Коновалова
Ссылка на материалы занятия: drive.google.com/drive/folder...
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
Поддержать канал можно по ссылке dls.samcs.ru/support
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_learning_school_news
Официальный сайт: dls.samcs.ru/
Официальная группа ВК: dlschool_mipt
ФПМИ МФТИ
Официальный сайт: mipt.ru/education/departments...
Магистратура: mipt.ru/education/departments...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/education/departments...

ความคิดเห็น • 8

@hsqlk 13 วันที่ผ่านมา ⁺¹
Хорошее объяснение: кратко, но в достаточном объеме для понимания темы
@user-iv5co4lu9g 14 วันที่ผ่านมา ⁺²
Нихера не понял ваще…
@yuryyarovikov3323 13 วันที่ผ่านมา ⁺¹
А вы с первого видео смотрите?
@yuryyarovikov3323 13 วันที่ผ่านมา ⁺¹
th-cam.com/video/3aAUxo1G1ks/w-d-xo.html
@hsqlk 13 วันที่ผ่านมา ⁺²
пересмотри видео через пару дней, потом будет легче
@user-ku4nn5pw8p 9 วันที่ผ่านมา
Грубо говоря, VQ-VAE - это про то, как апроксимировать довольно гибкие, сложные непрерывные распределения дискретными точками, которые более легковестные. То есть эти N точек (вектора из codebook'а) - это центроиды каких-то уплотнений, кластеров из реального распределения.
Насколько я понял, тут обычный лосс (как MSE из AE) разбивается на 2 лосса - энкодера и декодера. Мы хотим, чтобы вектора из энкодера плотно группировались у N точек, которыми мы хотим апроксимировать пространство (это encoder loss, от которого текут градиенты по всей CNN энкодера) и мы хотим, чтобы восстановленное изображение из сжатого латентного пространства было максимально похожим на входное (это reconstruction loss, от которого текут градиенты по всей CNN декодера). Ну и т.к. мы инициализировали эти N точек рандомно, то с чего вообще мы взяли, что с помощью их вообще можно что-то нормально апроксимировать? Давайте и их двигать, но по чуть-чуть (добавив коэффициент бэтта), чтобы модель успевала сходиться. А то получится, что центроиды двигаются в сторону итоговых точек энкодера, а эти точки уже сместились в сторону центроидов, оказавшись в другом месте. В итоге так и будут они в противофазе туда сюда прыгать.
Резюмируя еще раз: Есть реальное распределение в латентном (сжатом) пространстве, в VAE мы его апроксимировали композицией нормальных распределений (это как разложение функции в ряд Фурье на 100 синусод или в ряд Тейлора), а потом в VQ-VAE мы это распределение еще раз упростили до набора центроидов локальных уплотнений плотности.
@user-ku4nn5pw8p 9 วันที่ผ่านมา
Если что-то не понятно еще, то пиши)

ต่อไป

เล่นอัตโนมัติ

Лекция. Вариационные автокодировщики с непрерывным латентным пространством (VAE)