Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью! Несколько комментариев-уточнений/исправлений: 14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии. 17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше: В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя. 48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога". Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).
Не перестаю удивляться какой классный Анатолий учитель. Уважаю когда человек старается объяснить основные принципы простой понятной логикой, показать какой главный смысл. И все это в простых примерах. Я сам не могу понять вещь пока не пойму всю логику. Не могу тупо что-то зазубрить. А когда понимаешь логику, то все становится понятно и легко запоминается. Короч, респект
Материалы, по которым соискатели готовились к собеседованию: Обзор системы сплитования (на примере Авито): habr.com/p/454164/ Краткий обзор по статистическим тестам: vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f Пуассоновский бутстрап: th-cam.com/video/Zki9VMzxcFU/w-d-xo.html Подсчёт MDE: medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1) medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2) Стратификация: habr.com/ru/company/X5Tech/blog/596279/ Методы сокращения дисперсии и зачем это нужно: th-cam.com/video/KvIJ8FCJzr4/w-d-xo.html Увеличение чувствительности в A/B с помощью Cuped: th-cam.com/video/pZpUM08mv-E/w-d-xo.html Про FPR, TPR, Statistical power и p-value: th-cam.com/video/XTcP4oo4JI4/w-d-xo.html th-cam.com/video/-zps6hm0nX8/w-d-xo.html th-cam.com/video/2nP_gcut7SU/w-d-xo.html Канал для подготовки к интервью в сфере Data Science: th-cam.com/users/DataInterviewPro Лекция Нерсеса Багияна про A/B-тесты: th-cam.com/video/cWmS-ws4z9I/w-d-xo.html Курс «Основы статистики»: stepik.org/course/76/syllabus Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus
Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя. Отличная получилась беседа. Выпуск огонь! :)
сколько собеседовался статистику не спрашивали нигде, было что то похожее типа проанализировать датасет, но там просто построить графики и дать общие определения, без всяких этих научных терминов. здесь скорее на продакт аналитика собес, да то большинству компаний это не уперлость, понимание воронок и умение строить метрики тогда, но опять же это продакт. для дата аналитика сиквел, пайтон, табло и вот это вот все... в последнее время уже требуют ETL, Airflow, Spark, построение витрин как минимум для мидла.
Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.
Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.
z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.
прежде всего спрашивают Excel, PowerQuery, PowerPivot, сводные, ВПР, SQL, PowerBI либо аналог, это основа на hh, и потом уже питон и аб тестирование и то не всегда, ничего такого на твоих курсов нет....
стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?
есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал
Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.
@@vlkharlamov Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?
@@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга
@@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) ) Так что по факту что угодно))
По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью. Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.
@@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то
@@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.
Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью!
Несколько комментариев-уточнений/исправлений:
14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии.
17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше:
В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя.
48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога".
Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).
Слишком надменный ты. Неприятно слушать
ты кайфовый чел, на харизме
Толя находит время, чтобы делать контент даже при такой красоте сзади
Не перестаю удивляться какой классный Анатолий учитель.
Уважаю когда человек старается объяснить основные принципы простой понятной логикой, показать какой главный смысл. И все это в простых примерах.
Я сам не могу понять вещь пока не пойму всю логику. Не могу тупо что-то зазубрить. А когда понимаешь логику, то все становится понятно и легко запоминается.
Короч, респект
Материалы, по которым соискатели готовились к собеседованию:
Обзор системы сплитования (на примере Авито): habr.com/p/454164/
Краткий обзор по статистическим тестам:
vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f
Пуассоновский бутстрап:
th-cam.com/video/Zki9VMzxcFU/w-d-xo.html
Подсчёт MDE:
medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1)
medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2)
Стратификация:
habr.com/ru/company/X5Tech/blog/596279/
Методы сокращения дисперсии и зачем это нужно: th-cam.com/video/KvIJ8FCJzr4/w-d-xo.html
Увеличение чувствительности в A/B с помощью Cuped: th-cam.com/video/pZpUM08mv-E/w-d-xo.html
Про FPR, TPR, Statistical power и p-value:
th-cam.com/video/XTcP4oo4JI4/w-d-xo.html
th-cam.com/video/-zps6hm0nX8/w-d-xo.html
th-cam.com/video/2nP_gcut7SU/w-d-xo.html
Канал для подготовки к интервью в сфере Data Science: th-cam.com/users/DataInterviewPro
Лекция Нерсеса Багияна про A/B-тесты: th-cam.com/video/cWmS-ws4z9I/w-d-xo.html
Курс «Основы статистики»: stepik.org/course/76/syllabus
Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus
Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus
Анатолий (и коллеги), можете поделиться статьями о "проблемах" p-value, почему нельзя сломя голову бежать и ему верить?
Шикарная шевелюра. Контент тоже нормальный👍
Вставить комментарий для демонстрации благодарности Анатолию за контент
Получил интелектуальное удовольствие от ролика. Спасибо.
Интересные беседы, вторая часть с АБ тестами особо понравилась, узнала новое.
Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя.
Отличная получилась беседа. Выпуск огонь! :)
Спасибо парни за материал. Помог освежить знания и составить список пробелов.
классно, такие толковые ребята 👍
А какой подход обычно используют для множественного подглядывания в АБ? O’Brien-Fleming boundaries?
сколько собеседовался статистику не спрашивали нигде, было что то похожее типа проанализировать датасет, но там просто построить графики и дать общие определения, без всяких этих научных терминов. здесь скорее на продакт аналитика собес, да то большинству компаний это не уперлость, понимание воронок и умение строить метрики тогда, но опять же это продакт. для дата аналитика сиквел, пайтон, табло и вот это вот все... в последнее время уже требуют ETL, Airflow, Spark, построение витрин как минимум для мидла.
Почему когда говорите о se, говорите что наверху в формуле дисперсия? Там же стандартное отклонение.
Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.
Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.
z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.
Какой Иван хорошенький 😍
Анатолий, а вы обратили внимание, что у вас на фоне бимодальное распределение)
Где найти его курсы на степике?
прежде всего спрашивают Excel, PowerQuery, PowerPivot, сводные, ВПР, SQL, PowerBI либо аналог, это основа на hh, и потом уже питон и аб тестирование и то не всегда, ничего такого на твоих курсов нет....
Nice hair, awesome view
стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон
или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?
есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал
Еще варик - примирение с математикой. Фаза принятия.
Здравствуйте! Скажите ,пожалуйста, будет подобное видео, но на тему data engineer?
Думаю, сделаем!
@@karpovcourses ждём! И сразу вопрос. В октябре не успеваю, а когда следующий набор обучения на инженеров?
@@ЯМоя-ш7х Стартуем каждый месяц :)
Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.
Все так!
Анатолий, разберёте как-нибудь пуассоновский бутсреп на практике?
В приложенных материалах есть.
Пуассоновский бутстрап:
th-cam.com/video/Zki9VMzxcFU/w-d-xo.html
@@vlkharlamov Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?
@@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга
Ой,блин,сколько ещё учить то надо,елки палки!/
Настроение упало после просмотра чуть)
А это предполагается как собес по статистике на позицию какого уровня?
Джун+/Мидл?
Первая часть джун, вторая мидл и выше.
Топ!
👍🤗
Сам курс платный?
не очень понимаю зачем мне наизусть знать формулы?)
Анатолий, а как можно к Вам на интервью попасть?))
А в каком предмете вы хотите себя попробовать?)
@@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) )
Так что по факту что угодно))
По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью.
Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.
А что ещё спрашивают?
Хочу через полгода собеседоваться и мне очень интересно, в какую сторону крен делать.
@@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то
Тервер тоже только в одном месте был. Просили решить задачку
@@2korzhik спасибо за ответ! В целом люди видят разницу между аналитиком данных и тем же продуктовым аналитиком?
Много собесов уже прошел?
@@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.
Подскажите книжку почитать, если коммент мой увидите.
Я надеюсь, этот список вопросов не для джуна?😱
Сама в шоке сижу слушаю😀
Из-за прически такое ощущение, что Анатолий Карпов ненастоящий ))
Не узнал Толю
уже при усредненном n=4 распределение близко к нормальному, n=30 это уже явно перебор