Deep Learning на пальцах 6 - Convolutional Neural Networks

sim0nsays

มุมมอง 27 373

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 4 ม.ค. 2025

ความคิดเห็น • 35

@fitzroy214 5 ปีที่แล้ว ⁺⁴⁵
После просмотра подобных видео всегда сдерживаешься, чтобы тебя не разорвали на части 2 эмоции: радость от крутого материала и сожаление о том, что в университете ни один из преподавателей даже близко не подошел к уровню преподавания, продемонстрированного в видео. Спасибо за курс
@Bakuretso 2 ปีที่แล้ว ⁺⁴
19:44 подскажите пожалуйста! Не понимаю, если в тензоре, как я понял, просто выписываются элементы последовательно в матрицу 1 на 8, то по какому принципу разворачиваются веса в матрицу 2 на 8?
@stanislaustankevich5445 ปีที่แล้ว
тоже не понимаю. вы разобрались? может материал какой подбросите? :)
@dmitrygrishanovich4298 5 ปีที่แล้ว ⁺²
Это лучшее из того, что я видел в youtube на эту тему.
@TouchToDream 5 ปีที่แล้ว ⁺²
Теперь звук в порядке. Спасибо!
@dinarkino 5 ปีที่แล้ว ⁺³
Спасибо за перезалив!
@zzzCyberzzz 2 ปีที่แล้ว
почему обычно в конце больших CNN не более двух полносвязных слоев? Чтоб избежать затухания градиента? И BN обычно в них не ставят?
@sacramentofwilderness6656 4 ปีที่แล้ว ⁺¹
В задании на реализацию самому сверхточного слоя сильно упрощает жизнь np.einsum, хоть не уверен, что это оптимально с точки зрения производительности
@zzzCyberzzz 2 ปีที่แล้ว
Если у меня на входе не 3, а 28 каналов (ну так получилось осле FFT), то мне доступ к предобученным сетям типа VGG зарыт? Или можно как--то извратиться и свести к 3 каналам?
@АлексейЕрохин-м8ъ 4 ปีที่แล้ว
Ребят, не совсем понял про VGG14 момент с макспулом - на каждом очередном макспуле максимум выбирается из окна нейронов размером 2 на 2 с шагом 2 - таким образом результирующее число нейронов в каждом из подслоев макспула уменьшается в 4 раза и результирующий размер должен составить, например на макспуле после первого сверточного слоя, 112х112х64 а не 112х112х128 как указано в описании к архитектуре, потом погуглив нашел картинки, где между группами сверточных слоев нарисованы стрелочки с подписями pool/2. Что значит pool/2 - ? Значит что максимум выбирается из окна 2 на 1? Или как это понимать? Спасибо!
@Никита-й7р6п 5 ปีที่แล้ว
В чем преимущество использования 3ех каналов перед одним числом, которым можно выразить цвет? Просто по принципу "чем больше число входов, тем лучше"?
@rizef2166 5 หลายเดือนก่อน
Если мы скомбинируем информацию из каналов в виде одного числа, то мы потеряем информацию о каждом канале в отдельности - причина потери информации. Также потенциальное число которым мы закодируем цвет может быть очень большим, что может сказаться на стабильности градиента. Хотя 4 года прошло)
@dmitrymitrofanov3920 5 ปีที่แล้ว ⁺²
сдвинули этот экран пленку с него...?
@MikeMenshikov 4 ปีที่แล้ว ⁺¹
У меня такой дилетантский вопрос: почему в сети засовывают цветные картинки (3 канала), если можно их перевести в grayscale и на выходе получить в 3 раза меньше набор обучаемых параметров? Ведь, насколько я понимаю, мы не отталкиваемся от цвета когда классифицируем объект на картинке, объекты же могут быть абсолютно любого цвета, в т.ч. серого.
@sim0nsays 4 ปีที่แล้ว ⁺¹
Mike Menshikov во-первых, параметров в три раза меньше будет только на первом слое, а во-вторых в цвете очень много полезного сигнала, т.е. на чернобелых сеть бы научилась распознавать хуже
@MikeMenshikov 4 ปีที่แล้ว ⁺¹
Ясность, спс за быстрый ответ
@АлексейБогушевич-щ1ъ 5 ปีที่แล้ว
Большое спасибо за лекции!!!
Извиняюсь за глупый вопрос и тем более запоздалый!
Подскажите пожалуйста, как мы выбираем количество каналов для свертки?
Правильно ли я понял при свертке мы суммируем значения (произведение веса(для данного канала) на значение пикселя (для данного слоя)) полученные на всех слоях изображения (RGB)
@sim0nsays 5 ปีที่แล้ว ⁺²
Да, именно так, только каналов на входе может быть больше 3 в середине сети. Количество каналов - это параметр архитектуры, точно так же как количество нейронов в fully connected слоях
@Semihal 4 ปีที่แล้ว
Отличное объяснение!
Но я так и не понял, как считается градиент для conv-слоев.
Для каждого conv-канала существует множество входных данных (если kernel_size ≠ image_size) и как тогда брать градиент? Он просто суммируется по всем "входам" или среднее берется? Или что-то другое...?
@Semihal 4 ปีที่แล้ว
По всей видимости там сумма по входам... но почему именно сумма?
@fiftyshadesofgrey1991 2 ปีที่แล้ว
Почему все так гемморойно
@alexanderstepanov6034 5 ปีที่แล้ว
А где ссылки обещанные? :)
@sim0nsays 5 ปีที่แล้ว
В описании!
@konstantinkulagin 5 ปีที่แล้ว
@@sim0nsays нету!
@sim0nsays 5 ปีที่แล้ว
@@konstantinkulagin Как это? Если все еще непонятно, читать: cs231n.github.io/convolutional-networks/ или смотреть: th-cam.com/video/LxfUGhug-iQ/w-d-xo.html
@indir935 5 ปีที่แล้ว
Больше хотелось бы увидеть Keras и Tensorflow на практике, а не PyTorch(
@Renat863 5 ปีที่แล้ว ⁺¹
Почему?
@zombie_v 5 ปีที่แล้ว
@@Renat863 в основном из-за простоты(миром правит лень, ну и чуток бабы), ну и микроскопом саморезы забивать в `19 уже... такое... да и тф оптимизирована хоть на радиках, хоть на куды-киных, хоть на лапатафонах...
@cover-band6035 5 ปีที่แล้ว
@@zombie_vоткуда у Вас такие познания, можно поподробнее про достоинства и недостатки разных DL библиотек, может ссылки на бенчи?
@zombie_v 5 ปีที่แล้ว
@@cover-band6035 холивар на тему, круче тф чем кафе торчЪ цнтк или х.з. ещё что-то, для меня не интересен, бенч для продакшена? ну поищите, если найдёте плз поделитесь. а если бенч для обучения, то как-бы сОАвсем не интересно, т.к. ИМХО проще связки питон-юпитер-тф-керас-тензорбоард не придумано пока

ต่อไป

เล่นอัตโนมัติ

Deep Learning на пальцах 7 - Segmentation и Object Detection (Владимир Игловиков)