Тут еще интересно на 46:50, что при такой постановке таргета выйдет, что на рейсах следующих после первого задержавшегося в цепочке пересадок задержка 0 и в целевой метрике(расходы) фактически не будут учитываться на этих рейсах, что бизнесово неверно
Добавляю мысли по ходу кейса: 1) Почему мы сразу лезем строить модель не разобравшись в процессах? Первый и главный - какие мы сделаем выводы из предиктовой модели, какие решения будут приняты - если нам оперативно нужно поправить тех процессы и снизить кол-во задержек это одна модель (и не факт что МЛ тут нужен кстати), если нужно сделать борд для менеджмента - другая, если понимать а будет ли конкретный рейс задержан и насколько - третья. Не увидел этих рассуждений. 2) Почему целевая метрика - бабки? Это агрегированная метрика, на которую влияют задержки. Для понимания дельты просадки простой регрессии достаточно должно было бы быть (лтв клиента на совокупность задержек для постоянных и отток к задержке (больше не летал компанией за t времени, например, над метрикой особо не думал) 3) АБ тест - хорошая идея, мне нравится. 4) Не заметил детальной разбивки по причинам задержки и интерпретируемости модели - есть внешние факторы - погода, политика, ковид и внутренние - процессные - это по сути два разных направления и модель тогда по-другому строится. Итого мне не очень понравилось отсутствие разбора бизнесовой части перед построением модели, даже с учетом собеса на ДС позицию.
Правильно ли я понимаю, что в случае, если бы это была модель на деревьях, мы бы просто проигнорировали последнюю итерацию -- усреднение предиктов и отдали бы, грубо говоря, все предикты с каждого дерева, отсюда бы и получили, собственно, распределение?
А что с речью ? Понятно, что человек волнуется, но слова паразиты режут слух. Нужно больше читать художественной литературы и исключать слова паразиты. )))
Какой-то ппц, интервьюируемый ничего толком не смог ответить про прогноз распределения, хотя для линейной регрессии и рандом фореста он делается элементарно. Я уже молчу про баесовский подход. То есть по уровню непосредственно ДС знаний он где-то на уровне стажера, прогуливавшего занятия про линейную регрессию. Я бы такого не взял, видимо интервьюер тоже, но из вежливости не стал унижать собеседника.
Версия на английском: th-cam.com/video/3NzF7eajxVE/w-d-xo.html
Тут еще интересно на 46:50, что при такой постановке таргета выйдет, что на рейсах следующих после первого задержавшегося в цепочке пересадок задержка 0 и в целевой метрике(расходы) фактически не будут учитываться на этих рейсах, что бизнесово неверно
поставьте столик побольше...дайте ребятам простор для манёвра жестикуляций)))
Кейс начинается на 25:48
Ну ребята, вы побили мировой рекорд по количеству в видосе слова "там" 😀
Добавляю мысли по ходу кейса:
1) Почему мы сразу лезем строить модель не разобравшись в процессах? Первый и главный - какие мы сделаем выводы из предиктовой модели, какие решения будут приняты - если нам оперативно нужно поправить тех процессы и снизить кол-во задержек это одна модель (и не факт что МЛ тут нужен кстати), если нужно сделать борд для менеджмента - другая, если понимать а будет ли конкретный рейс задержан и насколько - третья. Не увидел этих рассуждений.
2) Почему целевая метрика - бабки? Это агрегированная метрика, на которую влияют задержки. Для понимания дельты просадки простой регрессии достаточно должно было бы быть (лтв клиента на совокупность задержек для постоянных и отток к задержке (больше не летал компанией за t времени, например, над метрикой особо не думал)
3) АБ тест - хорошая идея, мне нравится.
4) Не заметил детальной разбивки по причинам задержки и интерпретируемости модели - есть внешние факторы - погода, политика, ковид и внутренние - процессные - это по сути два разных направления и модель тогда по-другому строится.
Итого мне не очень понравилось отсутствие разбора бизнесовой части перед построением модели, даже с учетом собеса на ДС позицию.
Жестко Вы...
красиво расписал, чотко, мне тоже не очень зашло, очень поверхостно было
добавьте таймлайн
Там нет отдельных глав
Время и т.п. параметры - это разве фичи? Или входные параметры?
Господа, поделитесь, пожалуйста, мыслями, как можно построить прогноз распределения, кроме того, как предложил интервьюируемый
Правильно ли я понимаю, что в случае, если бы это была модель на деревьях, мы бы просто проигнорировали последнюю итерацию -- усреднение предиктов и отдали бы, грубо говоря, все предикты с каждого дерева, отсюда бы и получили, собственно, распределение?
Привет. Для ds и консалтинга на какой факультет лучше идти вмк или мехмат? Поступаю в мгу, вот и выбираю. Спасибо
Мехмат
@@Fless значит делать упор на математику, ок
Спросил у человека учившегося в МГИМО. Как человек закончивший мехмат я бы советовал ВМК
@@Ivan-cf6cz Почему?
@@АндрейСергеевичШивалин а в чем специфика hard ds ?
Виктор, а что вы закончили в Мгимо?
МЭО
Дочь поступила на прикладную математику и информатику. Скажите после этого факультета легче ей будет поступить в ШАД?
В каком универе?
@@Fless РУДН
@@larisa123 После любого факультета РУДН поступить в ШАД трудно, т.к. РУДН про другое
@@Fless спасибо
@@larisa123 есть пример Эмели Драль, закончила РУДН, Шад, там же и преподавала, если не ошибаюсь.
Перед собеседованием желательно прибить хотя бы на время слова-паразиты
собеседующий погнал про себя рассказывать, так как будто он пришел устраиваться
Привет из ису
А что с речью ? Понятно, что человек волнуется, но слова паразиты режут слух. Нужно больше читать художественной литературы и исключать слова паразиты. )))
Какой-то ппц, интервьюируемый ничего толком не смог ответить про прогноз распределения, хотя для линейной регрессии и рандом фореста он делается элементарно. Я уже молчу про баесовский подход. То есть по уровню непосредственно ДС знаний он где-то на уровне стажера, прогуливавшего занятия про линейную регрессию.
Я бы такого не взял, видимо интервьюер тоже, но из вежливости не стал унижать собеседника.
поделитесь статьей, пожалуйста, интересно почитать
Вежливость - единственная причина не унижать собеседника?