#12. L1-регуляризатор. Отличия между L1- и L2-регуляризаторами | Машинное обучение

แชร์
ฝัง
  • เผยแพร่เมื่อ 22 ม.ค. 2025

ความคิดเห็น • 26

  • @vasiliygorelov8037
    @vasiliygorelov8037 2 ปีที่แล้ว +8

    качественная информация. Спасибо! Мужик с кунг-фу пандой >> ШАД.

    • @geoman666
      @geoman666 ปีที่แล้ว +1

      мегасогласен

  • @ibragim_on
    @ibragim_on ปีที่แล้ว +3

    Шикарно!

  • @ibragim_on
    @ibragim_on ปีที่แล้ว +1

    Браво🎉🎉🎉

  • @pinggg98
    @pinggg98 ปีที่แล้ว +1

    10:40 А есть ли вероятность того, что L2 обнулит признак? Выглядит так, будто если омега со шляпкой лежит на ординате, то тогда L2 тоже может сработать так, как это делает L1, разве нет?

    • @selfedu_rus
      @selfedu_rus  ปีที่แล้ว

      может, но с меньшей вероятностью

    • @pinggg98
      @pinggg98 ปีที่แล้ว

      @@selfedu_rus благодарю за ответ!

  • @ИванЕвдокимов-л6ь
    @ИванЕвдокимов-л6ь ปีที่แล้ว +2

    Наконец-то понял про значение картинок с ромбом и окружности регуляризаторов в конце ролика)
    Все понятно кроме 2ух формул на 3:45-3:59. Непонятно, что за квадратные скобки у выражения a(x)!=y и почему там знак '!=' вместо знака '='? Насколько я понимаю, формула L(w, x, y) записывается по аналогии с сигмоидальной функцией 1/[1+exp(-w^T*xi)], но тут зачем-то ещё добавляется yi под экспоненту, убирается знак минус и в числителе дроби добавляется двойка.

    • @trollface4783
      @trollface4783 ปีที่แล้ว

      эти скобки - нотация Азерсона, было в лекция до этого ролика.

  • @g.s1849
    @g.s1849 ปีที่แล้ว +3

    Правильно ли я понимаю, что говоря о том , что у нас получается более сложная форма поверхности оптимизируемой функции в пространстве признаков, с новой точкой минимума , находящейся на пересечении кривых уровня этих двух составляющих, мы говорим это с геометрической точки зрения например в 3ехмерном пространстве если посмотреть с верху, но фактически они могут и не пересечься ведь L = L_orig + lyambda * R(omega) => ∇L_orig(omega*) = - lyambda * ∇R(omega*), но это не обязательно означает, что они пересекаются . С этим вроде все понятно, как и то почему некоторые коэффициенты обнуляются, но почему обнуляются именно те, которые линейно зависимые с чем это связано, почему вероятность того, что именно они обнуляться, а не другие, выше?

    • @g.s1849
      @g.s1849 ปีที่แล้ว +2

      Кажется, я понял. Дело в том, что при линейной зависимости наш ромб можно сказать вытягивается в длину или ширину, что ведет к тому, что вероятность "встречи" угла с меньшим углом выше. Следовательно, в принципе можно также объяснить, почему, например, в нашем случае, если мы изначально расширим пространство признаков таким образом:
      \[ x_i = [w_i, h_i, 10w_i, 10h_i, 5h_i + 5w_i] \]
      наш алгоритм с большей вероятностью выберет именно \(10w_i\) и \(10h_i\), а другие признаки в точке минимума обнулит.

  • @PhyzmatClass
    @PhyzmatClass 9 หลายเดือนก่อน

    3:44 почему в функционале качества неравенство??

  • @PhyzmatClass
    @PhyzmatClass 9 หลายเดือนก่อน

    Мне вот такое добавление регуляризаторов напоминает нахождение условного экстремума методом неопределенных множителей. Есть здесь связь?

  • @romanbykov5922
    @romanbykov5922 2 ปีที่แล้ว +2

    Сергей, спасибо. Но поясните, пож-та: Это видео уже было в курсе (пару месяцев назад), потом оно вышло вчера. И вот выходит сегодня. Это какое-то обновление?

    • @selfedu_rus
      @selfedu_rus  2 ปีที่แล้ว +2

      да, незначительная ошибка была, поправил, в целом, все одно и то же!

  • @MAPMEJIADbI4
    @MAPMEJIADbI4 2 ปีที่แล้ว +4

    Почему на 13:29 первая величина больше второй, ведь вычитаемое 2*Δ*1 больше, чем 2*Δ*ε (при 0 < ε < 1)? Или может я чего-то не доглядел :/

    • @selfedu_rus
      @selfedu_rus  2 ปีที่แล้ว +1

      да, все верно у вас, я оговорился, наоборот, первое меньше второго, весь остальной вывод верен

  • @СергейЮров-б6е
    @СергейЮров-б6е 2 ปีที่แล้ว +4

    Сергей, вы как будто куда-то пропали. У вас все хорошо? Без обновлений вашего канала как-то не здорово…

    • @selfedu_rus
      @selfedu_rus  2 ปีที่แล้ว +8

      Спасибо, все нормально. Немного отдыхал после курса на Stepik по ООП + текущая работа. Скоро будут новые видео ))

  • @Name-ko3qb
    @Name-ko3qb 2 ปีที่แล้ว +3

    Так хочется познать ИИ, но мозги не дотягивают до математики, обидно

    • @ChelSammi9837
      @ChelSammi9837 ปีที่แล้ว

      у меня тоже сложно с математикой, но тут немного понимаю ее.
      но начнете практику и все получится .

  • @dmitrybaltin6612
    @dmitrybaltin6612 ปีที่แล้ว +1

    Спасибо большое за лекцию. Очень интересно и понятно.
    Однако, есть вопрос. Скажите, почему вы добавляете слагаемое в производную функции потерь, но не добавляете его в функцию потерь?
    Казалось бы должно быть что-то типа
    L1 = 1.0
    def loss(w, x, y):
    M = np.dot(w, x) * y
    return 2 / (1 + np.exp(M)) + np.abs(w).sum() * L1

    • @selfedu_rus
      @selfedu_rus  ปีที่แล้ว

      В функции она тоже должна быть, просто для расчета показателя качества я решил регуляризатор не учитывать. А в производной присутствует, чтобы градиентный алгоритм учитывал этот регуляризатор.

    • @dmitrybaltin6612
      @dmitrybaltin6612 ปีที่แล้ว +1

      ​@@selfedu_rus Понятно. Спасибо за ответ. Кстати, пользуясь случаем. А не могли бы вы сделать видео, или даже несколько, о том, как устроена Stable Diffusion. Контента много разного в сети, но как правило, все очень по-дилетантски и косноязычно. Хотелось бы увидеть действительно качественный материал

    • @selfedu_rus
      @selfedu_rus  ปีที่แล้ว

      @@dmitrybaltin6612 да, интересная вещь, надо самому еще почитать ))

  • @СарматПересветов
    @СарматПересветов 10 หลายเดือนก่อน +1

    да, забавно, но у меня программа выдает что без L1-регуляризотара, алгоритм обучается нормально, причем Q получается даже меньше (лучше), нежели с использованием L1-регуляризотара. Вот как то так