Из википедии: Ошибки первого рода - «ложная тревога» (начали лечить, когда не нужно было). и ошибки второго рода - «пропуск цели» (не начали лечить, когда было нужно). Уточните пожалуйста, почему ошибка первого рода тяжелее по своим последствиям? Пересмотрел и предыдущий курс, там такое же утверждение.
Потому что она ограничена маленьким числом, уровнем значимости. Процент каких ошибок Вы желаете ограничить? Более тяжелых по своим последствиям. А доля ошибок 2-го рода может быть большой, может превышать 0.5...
Тоже не сразу понял. В лекции за Н0 - взята гипотеза о том, что человек болен (нуждается в срочной операции), в Википедии же наоборот. Цитата оттуда: "принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) - например, что обследуемый человек здоров". Из-за этого путаница в интерпретации ошибок первого и второго рода.
@@Vadim_Abbakumov тут ведь все зависит какую гипотезу за нулевую взять. Как обычно решение принимается , что нулевая гипотеза - человек болен а не здоров?
@@qwqw2674 Присоединяюсь. С тяжестью ошибок внесена путаница. Для себя в качестве опоры уяснил пока, что вроде бы нулевая гипотеза всегда обозначает отсутствие различий. То есть с больными будет как-то так: что лечить, что не лечить один фиг, то есть он то ли здоров, то ли уже помер почти. А значит нам важнее уменьшить именно ошибку второго рода.
Если переменная измерена в номинальной шкале, то используем моду. Если в количественной шкале, то очень редко. Мода неустойчива, небольшое увеличение выборки может очень сильно ее изменить...
@@ЕвгенийМашканцев-з1ю видел в интернете отличный пример на эту тему. Моду удобно использовать чтобы описать типичный размер обуви. В том смысле что шкала размеров чаще(вероятно почти всегда) дискретна и ограничена кол-вом размеров.Поэтому например, производитель обуви, когда задумается о том, какого размера ему нужно произвести больше пар, воспользуется модой и произведёт больше всего пар того размера, которого чаще всего покупают. Пример достаточно тривиальный, но по моему неплохо дополняет ответ Вадима Леонардовича об использовании моды, когда переменная номинальная(или ранговая как я привык называть)
Вадим Леонардович, а как быть в случае, когда нас интересует альтернативная гипотеза в виде EX > EY? Как я понял, в Питоне при проверке гипотез строго определено: основная гипотеза - равно, альтернативная - не равно.
Извините что беспокою. А можно узнать такую вещь: правило трех сигм работает только для нормального распределения? Или все таки его можно использовать как непараметрический метод, но учитывать, что туда попадет больше 1% наблюдений?
Работает для величин, у которых гистограмма (на самом деле плотность распределения) имеет один пик. И в интервал попадет 95% наблюдений. А если пиков несколько (мультимодальное распределение), то наверное у нас смесь распределений, и надо с этим разбираться. И немного субъективного: не люблю применять правило трех сигм для несимметричных распределений вроде логнормального.
@@Vadim_Abbakumov а какими методами статистики кроме 3х сигм и межквартильного расстояния можно пользоватся для поиска аномалий? Данные примерно такие: набоюдения за три года, шкала от 0 до 100, наблюдаемые одни и теже, пик распределения смещен вправо. Разница междц максимальным и минимальным значением за три года от 0 до примерно 40. Около 10 групп наблюдений (это, что то вроде теста данного по разным психологическим конструктам). Я пробовал просто 3 сигмы, но по некоторым конструктам получил колоссальный пазброс порядка 30 баллов (3 сигмы) решил сделать по другому - взял разницу между максимальным и минимальным значением, тогда 3 сигмы сократились до 21. Но беспокоит во первых возможность обосновать такой подход, а во вторых его состоятельность в этой ситуации. Может быть отбросить конструкт который дает такой большой разброс и по остальным провести стандартные 3 сигмы? Или есть какой то метод о котором я не знаю? :)) Межквартильное расстояние дает еще более плохие результаты.
@@pavelbrudanov6701 Методов очень много, всех не перечесть. Попробуйте методы, свободные от распределения. Например, вместо среднего - медиана, вместо линейной регрессии квантильную регрессию и так далее. И аномальные наблюдения перестанут быть проблемой
@@pavelbrudanov6701 В пакете sklearn на Python есть Novelty and Outlier Detection scikit-learn.org/stable/modules/outlier_detection.html Там же есть ссылки на первоисточники, исходя из которых имплементировали алгоритмы.
@@Vadim_Abbakumov скажите пожалуйста, у меня две выборки в каждой по 100000 наблюдений,которые распределены логнормально и я хочу проверить гипотезу о равенстве среднего. Мне нужно по критерию Стьюдента их сравнивать, как я привык, или, если я правильно понял вашу лекцию, есть только два других пути: Прологарифмировать или тест на равенство медиан? Совсем не нашел в интернете информации, как проверять такие гипотезы для логнормального, какие статистики искать.
Непонятно с р-уровнем. Если мы задали уровень значимости 0.05 и получили р-значение 0.03, то с одной стороны мы отвергаем основную гипотезу т.к. 0.03 < 0.05, а с другой стороны, для уровня значимости 0.01, более строгого, мы нулевую гипотезу не отвергаем, т.к. 0.03 > 0.01 Как так-то ?!
вот, соглашусь, у этого лектора "воды" больше 50%, да еще и путаное объяснение. Скачет с мысли на мысль, с понятия на понятие. Я молчу про примеры из "мезозоя". Чтобы понять, что он транслирует, надо быть "очень в теме", иначе придется идти и искать иные объяснения.
можно быть удивительно квалифицированным и удивительно непонятно объяснять. группа, очевидно, смешанная. студенты не понимают почти ничего, что он вещает. это же очевидно))) отсюда и молчание. иначе бы были вопросы. если студенты "нулевые", то подавать информацию надо было "на пальцах". любой препод бы понял, что студенты в ауте)) а он гнет свое и лишь спрашивает изредка "понятно, коллеги". понятно, что ничего непонятно. п/с/ они пишут про пререквизиты к курсу - знание теорвер, матанализ и тп. но в первой лекции он спросил, кто не знает, что такое квантиль, и студенты подняли руки)))) и что они сейчас должны спрашивать.
А бывают случаи когда проверка гипотезы о параметрах распределения и совпадении функции распределения выясняют одно и то же? Приведу пример из жизни. Имея некоторый набор данных я предположил, что случайная величина распределена по закону Вейбулла. Далее я используя возможности scipy.stats подобрал для этого распределения коэффициенты которые лучше подходят под данные. Как мне в таком случае проверить правильность подобранного распределения - проверить функцию с получившимися параметрами, или сами параметры распределения? Или это одно и то же ?
Вспомним критерий Колмогорова-Смирнова. Если в тестовую статистику подставить оценку, то распределение статистики изменится. Проблему решает поправка Лилиефорса. Здесь так же, но надо гуглить, как подправлять.
Очень крутой преподаватель. 5 лекцию смотрю, не отрываясь. Заумь стала понятной.
3:58 - Проверка статистических гипотез (Версия 3)
48:22 - Алгоритм проверки статистических гипотез
1:36:08 - Критерий Шапиро-Уилка
2:16:00 - Критерий Манна-Уитни
I know I'm pretty randomly asking but does anyone know a good place to watch newly released movies online?
@Nathan Ares thank you, I went there and it seems like they got a lot of movies there :D I really appreciate it!
@Demetrius Abel glad I could help xD
Лучший набор лекций для людей не имеющих профильное образование. Спасибо, Вадим Леонардович!
Огромное спасибо! Самая лучшая подача информации, что я видел в жизни!
Это просто потрясающий лектор! Смотрю взахлёб.
Чем-то напоминает Павла Виктора по физике)
Спасибо, Вадим Леонардович!
Рискну предположить, что потому что есть люди с 1 глазом и/или без глаз вообще. И в таком случае среднее получается меньше 2
@@g.glechyan а ларчик просто открывался, спасибо!
Мое почтение! Какой светлый человек!
Хе.... тотальная вакцинация, особенно клёво это читать в апреле 2021
А как прикольно в августе...
1:13:34 мне кажется с масштабом проблема. Было сказано, что дисперсия равна 1.
У среднего арифметического дисперсия уже не 1.
Из википедии:
Ошибки первого рода - «ложная тревога» (начали лечить, когда не нужно было).
и ошибки второго рода - «пропуск цели» (не начали лечить, когда было нужно).
Уточните пожалуйста, почему ошибка первого рода тяжелее по своим последствиям? Пересмотрел и предыдущий курс, там такое же утверждение.
Потому что она ограничена маленьким числом, уровнем значимости.
Процент каких ошибок Вы желаете ограничить?
Более тяжелых по своим последствиям.
А доля ошибок 2-го рода может быть большой, может превышать 0.5...
Тоже не сразу понял. В лекции за Н0 - взята гипотеза о том, что человек болен (нуждается в срочной операции), в Википедии же наоборот. Цитата оттуда: "принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) - например, что обследуемый человек здоров".
Из-за этого путаница в интерпретации ошибок первого и второго рода.
@@Vadim_Abbakumov тут ведь все зависит какую гипотезу за нулевую взять. Как обычно решение принимается , что нулевая гипотеза - человек болен а не здоров?
Тяжелее/не тяжелее - от задачи зависит. Кредиты выдавать - одно, а атомными станциями управлять - совсем другое.
@@qwqw2674 Присоединяюсь. С тяжестью ошибок внесена путаница. Для себя в качестве опоры уяснил пока, что вроде бы нулевая гипотеза всегда обозначает отсутствие различий. То есть с больными будет как-то так: что лечить, что не лечить один фиг, то есть он то ли здоров, то ли уже помер почти. А значит нам важнее уменьшить именно ошибку второго рода.
1:59:28
Скажите, пожалуйста, а что Вы думаете по поводу использования моды в качестве центра распределения и типичного значения?
Если переменная измерена в номинальной шкале, то используем моду. Если в количественной шкале, то очень редко. Мода неустойчива, небольшое увеличение выборки может очень сильно ее изменить...
@@Vadim_Abbakumov, спасибо за ответ и за лекции, Вы замечательно всё объясняете!
@@ЕвгенийМашканцев-з1ю видел в интернете отличный пример на эту тему. Моду удобно использовать чтобы описать типичный размер обуви. В том смысле что шкала размеров чаще(вероятно почти всегда) дискретна и ограничена кол-вом размеров.Поэтому например, производитель обуви, когда задумается о том, какого размера ему нужно произвести больше пар, воспользуется модой и произведёт больше всего пар того размера, которого чаще всего покупают. Пример достаточно тривиальный, но по моему неплохо дополняет ответ Вадима Леонардовича об использовании моды, когда переменная номинальная(или ранговая как я привык называть)
спасибо!
Это лекции для студентов каких специальностей, факультетов? Это какой курс?
Это лекции для слушателей CSC...
@@Vadim_Abbakumov ага, я сразу так и поняла) что такое csc?)))
Почему у человека в среднем меньше 2-х глаз?
Пояснительную бригаду
Вадим Леонардович, а как быть в случае, когда нас интересует альтернативная гипотеза в виде EX > EY? Как я понял, в Питоне при проверке гипотез строго определено: основная гипотеза - равно, альтернативная - не равно.
Гуглите "односторонняя гипотеза Критерий Стьюдента" Есть возможность пересчета результатов проверки двусторонней гипотезы в одностороннюю.
@@Vadim_Abbakumov Большое спасибо.
На моменте с экспоненциальным распределением и зачем оно нужно подумалось о законе Бенфорда)
Извините что беспокою.
А можно узнать такую вещь: правило трех сигм работает только для нормального распределения?
Или все таки его можно использовать как непараметрический метод, но учитывать, что туда попадет больше 1% наблюдений?
Работает для величин, у которых гистограмма (на самом деле плотность распределения) имеет один пик. И в интервал попадет 95% наблюдений. А если пиков несколько (мультимодальное распределение), то наверное у нас смесь распределений, и надо с этим разбираться. И немного субъективного: не люблю применять правило трех сигм для несимметричных распределений вроде логнормального.
@@Vadim_Abbakumov а какими методами статистики кроме 3х сигм и межквартильного расстояния можно пользоватся для поиска аномалий?
Данные примерно такие: набоюдения за три года, шкала от 0 до 100, наблюдаемые одни и теже, пик распределения смещен вправо.
Разница междц максимальным и минимальным значением за три года от 0 до примерно 40.
Около 10 групп наблюдений (это, что то вроде теста данного по разным психологическим конструктам).
Я пробовал просто 3 сигмы, но по некоторым конструктам получил колоссальный пазброс порядка 30 баллов (3 сигмы) решил сделать по другому - взял разницу между максимальным и минимальным значением, тогда 3 сигмы сократились до 21.
Но беспокоит во первых возможность обосновать такой подход, а во вторых его состоятельность в этой ситуации.
Может быть отбросить конструкт который дает такой большой разброс и по остальным провести стандартные 3 сигмы?
Или есть какой то метод о котором я не знаю? :))
Межквартильное расстояние дает еще более плохие результаты.
@@pavelbrudanov6701 Методов очень много, всех не перечесть.
Попробуйте методы, свободные от распределения.
Например, вместо среднего - медиана, вместо линейной регрессии
квантильную регрессию и так далее.
И аномальные наблюдения перестанут быть проблемой
@@pavelbrudanov6701 В пакете sklearn на Python есть Novelty and Outlier Detection scikit-learn.org/stable/modules/outlier_detection.html Там же есть ссылки на первоисточники, исходя из которых имплементировали алгоритмы.
@@Vadim_Abbakumov скажите пожалуйста, у меня две выборки в каждой по 100000 наблюдений,которые распределены логнормально и я хочу проверить гипотезу о равенстве среднего. Мне нужно по критерию Стьюдента их сравнивать, как я привык, или, если я правильно понял вашу лекцию, есть только два других пути: Прологарифмировать или тест на равенство медиан? Совсем не нашел в интернете информации, как проверять такие гипотезы для логнормального, какие статистики искать.
Непонятно с р-уровнем. Если мы задали уровень значимости 0.05 и получили р-значение 0.03, то с одной стороны мы отвергаем основную гипотезу т.к. 0.03 < 0.05, а с другой стороны, для уровня значимости 0.01, более строгого, мы нулевую гипотезу не отвергаем, т.к. 0.03 > 0.01 Как так-то ?!
Что значит "строго"?.. В случае перехода с 0.05 к 0.01 мы более строго относимся к идее "отвергнуть основную гипотезу" и отвергаем ее реже
Спасибо@@Vadim_Abbakumov
Думаю зависимость из Швеции заключается в том что птицы прилетают весной, а за этим идёт лето соответственно и сезон отпусков
:) майкельсон-морли не первые, кто измерял скорость света. С 17 века этим безобразием занимаются. Ну, и Плутон тогда не худеет ли? :)
смотрю до 32 минуты одно мыло.... можно было так долго не рассуссоливать. С 56:02 более по делу 1:08:25 примеры начались
вот, соглашусь, у этого лектора "воды" больше 50%, да еще и путаное объяснение. Скачет с мысли на мысль, с понятия на понятие. Я молчу про примеры из "мезозоя". Чтобы понять, что он транслирует, надо быть "очень в теме", иначе придется идти и искать иные объяснения.
есть же нормальные преподаватели. почему мне с ними не везло. емае
Печальное зрелище. Удивительный квалификации преподаватель и никто ничего не спрашивает. . .Смотря его предыдущие лекции - он реально потрясающий.
можно быть удивительно квалифицированным и удивительно непонятно объяснять. группа, очевидно, смешанная. студенты не понимают почти ничего, что он вещает. это же очевидно))) отсюда и молчание. иначе бы были вопросы. если студенты "нулевые", то подавать информацию надо было "на пальцах". любой препод бы понял, что студенты в ауте)) а он гнет свое и лишь спрашивает изредка "понятно, коллеги". понятно, что ничего непонятно. п/с/ они пишут про пререквизиты к курсу - знание теорвер, матанализ и тп. но в первой лекции он спросил, кто не знает, что такое квантиль, и студенты подняли руки)))) и что они сейчас должны спрашивать.
А бывают случаи когда проверка гипотезы о параметрах распределения и совпадении функции распределения выясняют одно и то же? Приведу пример из жизни. Имея некоторый набор данных я предположил, что случайная величина распределена по закону Вейбулла. Далее я используя возможности scipy.stats подобрал для этого распределения коэффициенты которые лучше подходят под данные. Как мне в таком случае проверить правильность подобранного распределения - проверить функцию с получившимися параметрами, или сами параметры распределения? Или это одно и то же ?
Вспомним критерий Колмогорова-Смирнова. Если в тестовую статистику подставить оценку, то распределение статистики изменится. Проблему решает поправка Лилиефорса. Здесь так же, но надо гуглить, как подправлять.
qq и pp биплоты нужно глазами смотреть. Стандартные тесты не особо надежны