Отличное обучающее видео с примерами. Все по полочкам разложила. Спасибо 👍. Хотелось бы в дальнейшем видео о том какие модели чаще используются и в каких случаях. Заранее благодарю!
Спасибо за такую подачу доступным языком. А после обучения модели на продакшене ей на вход надо тоже смасштабированные признаки подавать и получать в итоге смасштабированный таргет? И что с ним потом делать? Как "размасштабировать"?
И вам спасибо за приятные слова! В продакшене тоже нужно признаки масштабировать, но целевое значение в целом лучше не масштабировать (что на обучении, что на тесте), а оставлять его в исходном виде. А если уже масштабировали, то через классы в sklearn это можно сделать: есть метод inverse_transform (scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler.inverse_transform), который и позволяет сделать обратное масштабирование
Спасибо за очень понятное видео! В который раз всё объяснено максимально подробно и с хорошими примерами! Оформил light+ подписку. Есть вопрос по видео: почему мы сначала делим выборку на train и test, а только потом делаем нормализацию/стандартизацию? Можем ли мы сначала весь датасет промасштабировать, а уже потом разделять его на train и test? Спасибо.
Большое спасибо за приятные слова и за подписку! 😸 Сначала нужно разбить данные, а затем делать масштабирование данных, т.к. к выборке test относимся, как к настоящим, реальным данным, которые прислал заказчик, а он может прислать очень странные данные, дабы проверить нашу модель, поэтому мы должны быть готовы к этим странностям А можем подготовиться путем подсчета всех нужных нам показателей на выборке train, а затем только применять к test
Что если у нас задача сложной регрессии и в разряде числа, которое подаем на вход модели, имеется важная информация? К примеру мы подаем номер квартир и хотим чтобы модель научилась узнавать номер этажа, на котором находится эта квартира. Те 220 квартира находится на 2-ом этаже. Если мы нормализуем такие значения то модель будет не состоянии уловить вот эту вот "логику", что разряд и есть ответ, тк мы удалим из входного значения нужное значение.
А как действовать если на этапе обучения и тестирования, мы всё нормализовали, но в проде приходит значение которое не попадает в шкалу, и при transform(x), мы получаем значение >1?
Ничего страшного, что такое произойдет несколько раз, если это будет постоянно, тогда нужно будет собрать выборку с новыми значениями масштабируемого признака и снова обучить модель
Главный вопрос после нормализации и стандартизации , когда обучим модель и будем делать на ней предсказание, нам в эту модель нужно подавать нормализованные или стандартизованные данные или в обычном формате? И если мы будем подавать в обученную модель нормализованные и стандартизованные данные, то как их переводить в прежний вид? Вот про это не было сказано.
В обученную модель на масштабированных данных нужно подавать точно такие же масштабированные данные, только они будут новыми Перевести в обычный вид масштабированные данные можно применив к ним обратные преобразования, к примеру, для стандартизации нужно умножить на std и прибавив среднее арифметическое
Скажите, пожалуйста, должны ли мы приводить данные к нормальному распределению, когда подразумевается использование различных статистик (тот же Ф-тест Фишера) для проверки гипотез? Или мы просто подразумеваем, что данные распределены нормально? Если можно, дайте, пожалуйста, развернутый ответ. Надеялся, что будет раскрыта эта тема, касательно стандартизации.
Нужно убедиться, что признаки имеют нормальное распределение, чтобы пользоваться такого рода статистическими критериями Если признак распределен не нормально, то нужно пользоваться другими стат. критериями
Хорошо объясняете, спасибо огромное за вашу работу!!!
балдеж чистой воды. огромное спасибо
Оч круто! Этой темы и в этом формате мне долго не хватало!
ушки как большие признаки - все внимание забрали...
пс. объясняете здорово, спасибо огромное
скорее рррр и кривая челюсть, которая выпирает)
Отличное обучающее видео с примерами. Все по полочкам разложила. Спасибо 👍. Хотелось бы в дальнейшем видео о том какие модели чаще используются и в каких случаях. Заранее благодарю!
Очень просто и доступно. Спасибо тебе, лучезарная!
Отличное объяснение! Спасибо!
Прекрасное объяснение! Лайк и подписка обеспечены. Даёшь больше крутого контента)
Как же это все понятно! Спасибо)
Все по полкам, спасибо!
Отличное видео!!!
Спасибо, Юля
Всегда пожалуйста 😸
Какой балдëж и каеф🥰
Спасибо, очень полезный видеоурок!
Отличный урок
Видос суперский!
Лучшая!
спасибо❤❤❤
спасибо!
спасибо тебе
Спасибо за такую подачу доступным языком.
А после обучения модели на продакшене ей на вход надо тоже смасштабированные признаки подавать и получать в итоге смасштабированный таргет? И что с ним потом делать? Как "размасштабировать"?
И вам спасибо за приятные слова!
В продакшене тоже нужно признаки масштабировать, но целевое значение в целом лучше не масштабировать (что на обучении, что на тесте), а оставлять его в исходном виде.
А если уже масштабировали, то через классы в sklearn это можно сделать: есть метод inverse_transform (scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler.inverse_transform), который и позволяет сделать обратное масштабирование
Спасибо за очень понятное видео! В который раз всё объяснено максимально подробно и с хорошими примерами! Оформил light+ подписку.
Есть вопрос по видео: почему мы сначала делим выборку на train и test, а только потом делаем нормализацию/стандартизацию? Можем ли мы сначала весь датасет промасштабировать, а уже потом разделять его на train и test? Спасибо.
Большое спасибо за приятные слова и за подписку! 😸
Сначала нужно разбить данные, а затем делать масштабирование данных, т.к. к выборке test относимся, как к настоящим, реальным данным, которые прислал заказчик, а он может прислать очень странные данные, дабы проверить нашу модель, поэтому мы должны быть готовы к этим странностям
А можем подготовиться путем подсчета всех нужных нам показателей на выборке train, а затем только применять к test
@@machine_learrrning Я вас понял. К части test на этапе подготовки модели относимся как к реальным данным. Спасибо!
Что если у нас задача сложной регрессии и в разряде числа, которое подаем на вход модели, имеется важная информация?
К примеру мы подаем номер квартир и хотим чтобы модель научилась узнавать номер этажа, на котором находится эта квартира.
Те 220 квартира находится на 2-ом этаже.
Если мы нормализуем такие значения то модель будет не состоянии уловить вот эту вот "логику", что разряд и есть ответ, тк мы удалим из входного значения нужное значение.
А как действовать если на этапе обучения и тестирования, мы всё нормализовали, но в проде приходит значение которое не попадает в шкалу, и при transform(x), мы получаем значение >1?
Ничего страшного, что такое произойдет несколько раз, если это будет постоянно, тогда нужно будет собрать выборку с новыми значениями масштабируемого признака и снова обучить модель
Какой это плейлист?
Юля как всегда патащила!!!
Главный вопрос после нормализации и стандартизации , когда обучим модель и будем делать на ней предсказание, нам в эту модель нужно подавать нормализованные или стандартизованные данные или в обычном формате? И если мы будем подавать в обученную модель нормализованные и стандартизованные данные, то как их переводить в прежний вид? Вот про это не было сказано.
В обученную модель на масштабированных данных нужно подавать точно такие же масштабированные данные, только они будут новыми
Перевести в обычный вид масштабированные данные можно применив к ним обратные преобразования, к примеру, для стандартизации нужно умножить на std и прибавив среднее арифметическое
Блин, уже месяца 2 ищу курсор как у тебя, не могу найти. Не подскажешь где качала и как устанавливала? Буду оооооочень признателен :3
Вы используете R2 для задачи классификации?
Предсказываем стоимость недвижимости - а это задача регрессии, так что можем использовать R2_score
Здравствуйте! Как можно с Вами связаться?
Скажите, пожалуйста, должны ли мы приводить данные к нормальному распределению, когда подразумевается использование различных статистик (тот же Ф-тест Фишера) для проверки гипотез? Или мы просто подразумеваем, что данные распределены нормально? Если можно, дайте, пожалуйста, развернутый ответ. Надеялся, что будет раскрыта эта тема, касательно стандартизации.
Нужно убедиться, что признаки имеют нормальное распределение, чтобы пользоваться такого рода статистическими критериями
Если признак распределен не нормально, то нужно пользоваться другими стат. критериями
Спасибо за ролик. Очень тихий звук (
Спасибо. Лайк. Но зря мышку модифицировала, реально внимание отвлекает, тяжело смотреть.