"И это то зачем мы здесь собрались")) Отличный семинар, отличный курс по аналитике на Карпов Курсес. Юмор Анатолия с годами статистически значимо превосходит английский.
В курсе аналитик данных от karpov курсов он есть, правда там небольшой ролик на эту тему. Не думаю, что только ради этого нужно покупать весь курс, но ролик можно найти где-нибудь в сливах😅
Был бы очень благодарен если бы Вы выложили отдельным плей-листом все видео о статистике на Ваш ютуб канал, так как в Украине вк ещё забанен, а пользоваться VPN и вспоминать пароль от вк как то очень не хочется
Подскажите пожалуйста 2 вопроса: 1) Если я хочу проверить одни и те же гипотезы с помощью t-test, u-test и бутстрап, нужно ли делать поправки как при множественных сравнениях? 2) В коде бутстрапа, что использует Анатолий, мы берем размер бут-выборок равный размеру большей выборки. Не нужно ли как-то изменить данный параметр для таких несбалансированных выборок как в примере 90% на 10%? А то получается, что из выборки размером 50 мы берем выборку с возвращением в 500
Анатолий, на самом деле так и не стало понятно, требуется ли т-тесту нормальность выборки? На мой взгляд, нет. Если просимулировать A/A-тесты из экспоненциального распределения, то т-тест ошибается ожидаемо (~5% ошибок при альфе=0.05). Кроме того (опять же на мой взгляд), вы допускаете вольные высказывания насчет Манна-Уитни. В индустрии говорят (например, ребята из Авито доказывают это), что тест Манна-Уитни в принципе нежелательно использовать, тк он дает очень много ложных срабатываний и не всегда в принципе отражает реальное положение дел.
супер круто мега спасибо! вопросы есть конечно) проходил и дс и стат на степике твой оч благодарен! есть вопрос по выбросам так и не понял пересмотрел и читал кучу всего в итоге что делать то как раз если вот у тебя в 50нике есть пару выбросов и они ушли за 3 сигма) что тут делать? ждем более детальных подробных не школьных стат!))
в конце ноутбука написано вот что: 5.4687657931866705e-08 < 0.0000002, я так понимаю 1-е число это получившееся p-value как результат применения функции, а второе число это порог допустимой значимости. Такой вопрос как мы получили это число - 0.0000002? и как вообще делать поправку на множественные сравнения в этом случае? Например, я беру поправку Бонферрони. Нужно ли мне мой порог (0.01) делить на количество бустреп выборок? а если я сравниваю 2 выборки по 20 признакам?
@@karpovcourses Благодарю за ответ. Применил непараметрические критерии (Манна-Уитни и Бутстрэп). В случае с Манна-Уитни p-value составило 0.032, а при Бутстрэп p-value составило 0.24 (mean, 1000 подвыборок). Какая причина такого различия может быть и на что ориентироваться?)
не совсем понятно, как оценить доверительный интервал в случае бутстрапа. можно ведь взять бесконечно большое кол-во выборок по N, тогда confidence interval станет точкой
как в таком случае посчитать effect size? где об этом почитать? Cohen's d - размер эффекта для t-test, Rank-biserial correlation - размер эффекта для u-test, а для bootstrap?
Анатолий, большое спасибо за ваши видео и за курс на Степике. Думаю о том, чтобы прийти на ваши курсы Karpov Courses. Правильно ли я понимаю, что на ваших курсах делается упор на практику? Я уже многое изучила: sql, основы Python с его библиотеками для анализа данных и даже немного минимум по линейной алгебре (чтобы хоть чуть-чуть понимать в матрицах), визуализацией почти не занималась. Я чувствую, что мне не хватает реальной практики, может даже какой-то стажировки, чтобы отработать и закрепить знания. У Вас есть предложение для таких как я? Может какой-нибудь буткемп? Не хотелось бы долго зависать на азах, хотя полезность повторения я ни в коем случае не отрицаю, хочется уже что-то более-менее приближенное к реальной работе. В моём случае все ещё осложняется тем, что на своей позиции и на своём месте работы (отсталая во многих отношениях государственная структура) я не могу применять полученные знания, быстро забываются какие-то важные моменты, полученные во время обучения.
Возможно пропустил этот момент. Но можно ли с помощью bootstrap подвыборок оценивать p-value каких нибудь тестов? например те же Манна-Уитни или т-тест.
@@karpovcourses Да, но если bootstrap'ом мы можем более точно измерить среднее, медиану и т.д., то нельзя ли адаптировать bootstrap так чтобы получить более точный результат тестов или получить больше информации про его результаты(например учесть те же ошибки первого/второго рода)? Ну или как-то по другом извлечь для себя пользу?
Вопрос по статтестам: есть наблюдения по двум точкам за три месяца. Хочу понять, как изменяется (и статзначимо ли изменяется) распределение наблюдений от месяца к месяцу и выяснить - кто менялся от первого месяца к третьему больше всего (в том числе и туда-обратно? покритикуйте план: 1/ сравниваю внутри точек тестом Колмогорова-Смирнова (или Манна-Уитни) первый месяц со вторым, второй с третьим, первый с третьим. Получаю три числа - численное выражение различий. Суммирую. 2/ делаю вывод, что та точка, сумма которой получилась больше - изменялась сильнее или есть какие-то другие тесты для таких штук?
@@karpovcourses Был бы очень благодарен если бы Вы выложили отдельным плей-листом все видео о статистике на Ваш ютуб канал, так как в Украине вк ещё забанен, а пользоваться VPN и вспоминать пароль от вк как то очень не хочется
шикарный вебинар.
запишите пожалуйста вебинар про разбор бутстрепа под капотом, очень интересно услышать от вас эту лекцию
Будет сделано!)
Плюсую+++
@@karpovcourses по-прежнему ждём)
поддержу Романова Андрея, очень хочется про бутстрап подробнее! Особенно как его применять на данных типа выручка и arpu
@@karpovcourses еше ждем, как хатико)
"И это то зачем мы здесь собрались"))
Отличный семинар, отличный курс по аналитике на Карпов Курсес.
Юмор Анатолия с годами статистически значимо превосходит английский.
Трай ту спик фром май харт!
Выпуск пушка в меру упростил в меру осветил 🎉
Отличный вебинар. Спасибо!) Интересно стало посмотреть на пример выбора теста на основе симуляции и АА тестов, раз уж он был упомянут )
Очень хороший материал! Спасибо вам! Как всегда изложение на высоте и очень полезно)
Отличный вебинар. Огромное спасибо, Анатолий!
Спасибо большое. Картина выстроилась более понятно
3 года прошло, а я все жду выпуск про bootstrap😂
В курсе аналитик данных от karpov курсов он есть, правда там небольшой ролик на эту тему. Не думаю, что только ради этого нужно покупать весь курс, но ролик можно найти где-нибудь в сливах😅
За Степик уважуха!
Толково рассказано! Спасибо!
Хороший обзор, спасибо)
Спасибо за отличное видео ❤
Спасибо! Слушать интересно.
Можно, пожалуйста, ссылку на предыдущий вебинар, на который вы ссылайтесь в начале видео?
Отлично, все понятно. Спасибо
Был бы очень благодарен если бы Вы выложили отдельным плей-листом все видео о статистике на Ваш ютуб канал, так как в Украине вк ещё забанен, а пользоваться VPN и вспоминать пароль от вк как то очень не хочется
Подскажите пожалуйста 2 вопроса:
1) Если я хочу проверить одни и те же гипотезы с помощью t-test, u-test и бутстрап, нужно ли делать поправки как при множественных сравнениях?
2) В коде бутстрапа, что использует Анатолий, мы берем размер бут-выборок равный размеру большей выборки. Не нужно ли как-то изменить данный параметр для таких несбалансированных выборок как в примере 90% на 10%? А то получается, что из выборки размером 50 мы берем выборку с возвращением в 500
спасибо!
о и да можно продвинутое юзание в пайчарме?? а то привык к спайдеру и тетради что от пч отвык да и сильно в нем не углублялся(
Анатолий, на самом деле так и не стало понятно, требуется ли т-тесту нормальность выборки? На мой взгляд, нет. Если просимулировать A/A-тесты из экспоненциального распределения, то т-тест ошибается ожидаемо (~5% ошибок при альфе=0.05). Кроме того (опять же на мой взгляд), вы допускаете вольные высказывания насчет Манна-Уитни. В индустрии говорят (например, ребята из Авито доказывают это), что тест Манна-Уитни в принципе нежелательно использовать, тк он дает очень много ложных срабатываний и не всегда в принципе отражает реальное положение дел.
супер круто мега спасибо!
вопросы есть конечно)
проходил и дс и стат на степике твой оч благодарен!
есть вопрос по выбросам так и не понял пересмотрел и читал кучу всего в итоге что делать то как раз если вот у тебя в 50нике есть пару выбросов и они ушли за 3 сигма)
что тут делать?
ждем более детальных подробных не школьных стат!))
А где бы найти прошлый вебинар? что-то не гуглится
в конце ноутбука написано вот что: 5.4687657931866705e-08 < 0.0000002, я так понимаю 1-е число это получившееся p-value как результат применения функции, а второе число это порог допустимой значимости.
Такой вопрос как мы получили это число - 0.0000002? и как вообще делать поправку на множественные сравнения в этом случае?
Например, я беру поправку Бонферрони. Нужно ли мне мой порог (0.01) делить на количество бустреп выборок? а если я сравниваю 2 выборки по 20 признакам?
Анатолий, здравствуйте! У меня обе выборки по распределению Пуассона, количество значений в каждой около 1000. Какой метод правильнее применить?
Используйте непараметрику, не прогадаете
@@karpovcourses Благодарю за ответ. Применил непараметрические критерии (Манна-Уитни и Бутстрэп). В случае с Манна-Уитни p-value составило 0.032, а при Бутстрэп p-value составило 0.24 (mean, 1000 подвыборок). Какая причина такого различия может быть и на что ориентироваться?)
не совсем понятно, как оценить доверительный интервал в случае бутстрапа. можно ведь взять бесконечно большое кол-во выборок по N, тогда confidence interval станет точкой
великолепно
как в таком случае посчитать effect size? где об этом почитать? Cohen's d - размер эффекта для t-test, Rank-biserial correlation - размер эффекта для u-test, а для bootstrap?
Здравствуйте, Анатолий! Пожалуйста, дайте ссылку на ноутбук к видео.
Код и данные по ссылке yadi.sk/d/-TLefuXoV7Z7FQ?w=1
@@karpovcourses thnx!
У кого пропал звук - не пугайтесь, в видео есть три таких места, где читать надо по губам!
Вы тоже теперь когда говорите качаете головой из стороны в сторону как Анатолий?
Анатолий, большое спасибо за ваши видео и за курс на Степике. Думаю о том, чтобы прийти на ваши курсы Karpov Courses. Правильно ли я понимаю, что на ваших курсах делается упор на практику? Я уже многое изучила: sql, основы Python с его библиотеками для анализа данных и даже немного минимум по линейной алгебре (чтобы хоть чуть-чуть понимать в матрицах), визуализацией почти не занималась. Я чувствую, что мне не хватает реальной практики, может даже какой-то стажировки, чтобы отработать и закрепить знания. У Вас есть предложение для таких как я? Может какой-нибудь буткемп? Не хотелось бы долго зависать на азах, хотя полезность повторения я ни в коем случае не отрицаю, хочется уже что-то более-менее приближенное к реальной работе.
В моём случае все ещё осложняется тем, что на своей позиции и на своём месте работы (отсталая во многих отношениях государственная структура) я не могу применять полученные знания, быстро забываются какие-то важные моменты, полученные во время обучения.
Возможно пропустил этот момент. Но можно ли с помощью bootstrap подвыборок оценивать p-value каких нибудь тестов? например те же Манна-Уитни или т-тест.
А зачем? В этих тестах мы же и так можем рассчитать п валью?
@@karpovcourses Да, но если bootstrap'ом мы можем более точно измерить среднее, медиану и т.д., то нельзя ли адаптировать bootstrap так чтобы получить более точный результат тестов или получить больше информации про его результаты(например учесть те же ошибки первого/второго рода)? Ну или как-то по другом извлечь для себя пользу?
Про сон во сне тоже подумал :D
Вопрос по статтестам: есть наблюдения по двум точкам за три месяца. Хочу понять, как изменяется (и статзначимо ли изменяется) распределение наблюдений от месяца к месяцу и выяснить - кто менялся от первого месяца к третьему больше всего (в том числе и туда-обратно?
покритикуйте план:
1/ сравниваю внутри точек тестом Колмогорова-Смирнова (или Манна-Уитни) первый месяц со вторым, второй с третьим, первый с третьим. Получаю три числа - численное выражение различий. Суммирую.
2/ делаю вывод, что та точка, сумма которой получилась больше - изменялась сильнее
или есть какие-то другие тесты для таких штук?
Что же там про ману небесную? :DD
Где посмотреть прошлый вебинар?
vk.com/karpovcourses?w=wall-169934613_215
@@karpovcourses Был бы очень благодарен если бы Вы выложили отдельным плей-листом все видео о статистике на Ваш ютуб канал, так как в Украине вк ещё забанен, а пользоваться VPN и вспоминать пароль от вк как то очень не хочется
как участвовать в онлайн чате, глюк TH-cam
Карпов - верни ̶с̶т̶е̶н̶у̶ курс на степике.
скоро вернем!)
Мне одному bootstrap похож на бустинг?
Воснове бустинга и лежит идея бутстрапа. Посмотрите что означает слово бустинг с английского )