Вопрос по skip connection. Интуитивно кажется что такой трюк должен свести на нет всю работу скрытых слоев при условии что значения весов небольшие. Для обучения нам нужна нелинейность которую мы достигаем активацией. Активация зажимает значения в небольшой диапазон. Используют ли активацию на скрытых слоях вместе со skip connection? Почему skip connection не сводит на нет работу скрытых слоев?
@Tatiana Gaintseva, спасибо за хорошее объяснение. Очень интересно. Вот вы говорили, что можете почитать на "медиуме?" не очень понятно, не могли бы вы написать где. Большое спасибо)
4096 - это количество нейронов в первом полносвязном слое, т.е. выходных нейронов. Число нейронов на выходе последней свёртки, т.е. на входе в первый полносвязный слой, будет другим.
У меня есть предположение, что skip connection применяют прям в очень больших сетях, условно больше 18 слоев, как в ResNet. Применение техники Skip connection - это обычная практика при работе с задачами DNN ? (наряду с baseline техниками - ReLU, Adam, нормализацией)
Когда я говорила о скип коннекшенах, я как раз сказала, что они нужны для того чтобы обучаться глубокие сети :) так что да, они имеют смысл в глубоких сетях. В маленьких их не применяют
"скип коннекшен называется скип коннекшен, потому что он скипает" - ох уж эти жертвы гугл-переводчиков. Когда вы научитесь учить английский и не забывать русский?
Это точно програмирование, что имеет прямую жесткую связь с математико? ... Или конкурс лингвистической эквилибристики? На 19:35 у вас там "мат.пушка" на экране. Бог с ним как вы в скобках единицу присвоили. Но как вы за скобки общий множитель выносите - это ТРЭШ. ... Формулы сокращенного умножения? Не, видать не слышали?
Более того если свернуть вашу "пушку" по законам математики, то х1 в расчетах не участвует и либо L/W равно нулю либо х3/х2 равно нулю, а L/W через Х-ы не выражается и от них не зависит. .... Дайте Вашу формулу любому школьнику, попрасите ее сократить и сами увидете, что выйдет.
здравствуйте. Поясните подробнее, пожалуйста, что вам кажется неверным на слайде. Про "свернуть" формулу - смысл в том, что я наоборот разворачивала формулу производной в производную сложной функции, чтобы показать, как она считается. Или я неверно понимаю вашу претензию?
@@поселокОпытныйСтаростат свернуть "пушку" по законам математики нельзя. То, что вы считаете "дробями" - это градиенты. Не дроби. Если вы аппелируете к математике, то сначала подтяните сами знания о производных и градиентах сложной функции.
@@tatianagaintseva8701 градиен, вектор, да хоть атамайзер... если это нечто меняющиеся в зависимости от чего-то, то общий вид записи F(x). A F(x)/F(x)=1 ..... хоть в африке, хоть на луне.
@P4ElOVEk не разбираюсь? С клавы мобилы регистры и значки ваших "векторов" корректно указать сложно. Но о чем я кто в теме понял. Вы там по ходу с новыми законами матеиатики случайно новую символьную таблицу для древнейшей из наук не изобрели? .... Так надо тогда уж и "легенду" этих символов выкладывать, что вы там имели в виду. ... А уровень вашей мат. подготовке четко определяется, когда при отображение суммы, вы одно из слогаемых (которое является произведение) в скобки берете. ... А с "присвоением ЕДИНИЦЫ" -то это вообще за гранью.
Спасибо за лекцию, вы отличный лектор!
@Tatiana Gaintseva, вы восхитительная! Лучше, чем у вас обьяснение cnn я не нашел)
Здоровья вам и вкусных печенек!
🤯 как же все это круто
Татьяна, моё почтение👍
О, и ссылка на презентацию! Благодарю
спасибо!
просто прекрасно!!
Вопрос по skip connection. Интуитивно кажется что такой трюк должен свести на нет всю работу скрытых слоев при условии что значения весов небольшие. Для обучения нам нужна нелинейность которую мы достигаем активацией. Активация зажимает значения в небольшой диапазон. Используют ли активацию на скрытых слоях вместе со skip connection? Почему skip connection не сводит на нет работу скрытых слоев?
@Tatiana Gaintseva, спасибо за хорошее объяснение. Очень интересно. Вот вы говорили, что можете почитать на "медиуме?" не очень понятно, не могли бы вы написать где. Большое спасибо)
А точно ядра 1*1? Вроде чаще схема встречается с ядром 3*3 и паддингом 1.
Если сеть долго обучать, то у ядер одного слоя нет тенденции к тому, чтобы становиться похожими?
Точно ли правильная архитектура AlexNet? Даже простой расчет последней свертки 13x13x256 никак не равен 4096
4096 - это количество нейронов в первом полносвязном слое, т.е. выходных нейронов. Число нейронов на выходе последней свёртки, т.е. на входе в первый полносвязный слой, будет другим.
У меня есть предположение, что skip connection применяют прям в очень больших сетях, условно больше 18 слоев, как в ResNet.
Применение техники Skip connection - это обычная практика при работе с задачами DNN ? (наряду с baseline техниками - ReLU, Adam, нормализацией)
Когда я говорила о скип коннекшенах, я как раз сказала, что они нужны для того чтобы обучаться глубокие сети :) так что да, они имеют смысл в глубоких сетях. В маленьких их не применяют
А что же про самую эффективную нейросеть (EfficientNet_v2) не рассказали???
Вообще-то веса это дубль-вэ (дабл-ю), а не омега (от слова вес - weight).
"скип коннекшен называется скип коннекшен, потому что он скипает" - ох уж эти жертвы гугл-переводчиков. Когда вы научитесь учить английский и не забывать русский?
Д - значит душнила.
Это точно програмирование, что имеет прямую жесткую связь с математико?
...
Или конкурс лингвистической эквилибристики? На 19:35 у вас там "мат.пушка" на экране. Бог с ним как вы в скобках единицу присвоили. Но как вы за скобки общий множитель выносите - это ТРЭШ.
...
Формулы сокращенного умножения? Не, видать не слышали?
Более того если свернуть вашу "пушку" по законам математики, то х1 в расчетах не участвует и либо L/W равно нулю либо х3/х2 равно нулю, а L/W через Х-ы не выражается и от них не зависит.
....
Дайте Вашу формулу любому школьнику, попрасите ее сократить и сами увидете, что выйдет.
здравствуйте. Поясните подробнее, пожалуйста, что вам кажется неверным на слайде. Про "свернуть" формулу - смысл в том, что я наоборот разворачивала формулу производной в производную сложной функции, чтобы показать, как она считается. Или я неверно понимаю вашу претензию?
@@поселокОпытныйСтаростат свернуть "пушку" по законам математики нельзя. То, что вы считаете "дробями" - это градиенты. Не дроби. Если вы аппелируете к математике, то сначала подтяните сами знания о производных и градиентах сложной функции.
@@tatianagaintseva8701 градиен, вектор, да хоть атамайзер... если это нечто меняющиеся в зависимости от чего-то, то общий вид записи F(x). A F(x)/F(x)=1 ..... хоть в африке, хоть на луне.
@P4ElOVEk не разбираюсь? С клавы мобилы регистры и значки ваших "векторов" корректно указать сложно. Но о чем я кто в теме понял. Вы там по ходу с новыми законами матеиатики случайно новую символьную таблицу для древнейшей из наук не изобрели?
....
Так надо тогда уж и "легенду" этих символов выкладывать, что вы там имели в виду.
...
А уровень вашей мат. подготовке четко определяется, когда при отображение суммы, вы одно из слогаемых (которое является произведение) в скобки берете.
...
А с "присвоением ЕДИНИЦЫ" -то это вообще за гранью.
Ппц, столько бреда в одной лекции я еще не слышал...(
Полезно и доступно. Спасибо, красавица.