Лекция 5. Проверка статистических гипотез (теоретическое введение)

Computer Science Center

มุมมอง 49 259

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 23 ม.ค. 2025

ความคิดเห็น • 54

@TahhuVah 6 ปีที่แล้ว ⁺²⁶
Очень крутой преподаватель. 5 лекцию смотрю, не отрываясь. Заумь стала понятной.
@ipanika 4 ปีที่แล้ว ⁺⁴¹
3:58 - Проверка статистических гипотез (Версия 3)
48:22 - Алгоритм проверки статистических гипотез
1:36:08 - Критерий Шапиро-Уилка
2:16:00 - Критерий Манна-Уитни
@demetriusabel947 3 ปีที่แล้ว
I know I'm pretty randomly asking but does anyone know a good place to watch newly released movies online?
@demetriusabel947 3 ปีที่แล้ว
@Nathan Ares thank you, I went there and it seems like they got a lot of movies there :D I really appreciate it!
@nathanares5233 3 ปีที่แล้ว
@Demetrius Abel glad I could help xD
@MegaZxzxzxzx 5 ปีที่แล้ว ⁺⁹
Лучший набор лекций для людей не имеющих профильное образование. Спасибо, Вадим Леонардович!
@marokesh4560 4 ปีที่แล้ว ⁺⁵
Огромное спасибо! Самая лучшая подача информации, что я видел в жизни!
@ivanolefirenko5508 ปีที่แล้ว
Это просто потрясающий лектор! Смотрю взахлёб.
Чем-то напоминает Павла Виктора по физике)
Спасибо, Вадим Леонардович!
@g.glechyan ปีที่แล้ว ⁺¹
Рискну предположить, что потому что есть люди с 1 глазом и/или без глаз вообще. И в таком случае среднее получается меньше 2
@ivanolefirenko5508 ปีที่แล้ว
@@g.glechyan а ларчик просто открывался, спасибо!
@АнастасияНикифорова-л6щ 3 ปีที่แล้ว
Мое почтение! Какой светлый человек!
@denisbaranoff 3 ปีที่แล้ว ⁺¹⁰
Хе.... тотальная вакцинация, особенно клёво это читать в апреле 2021
@АнтонРыбкин-ю9д 3 ปีที่แล้ว
А как прикольно в августе...
@MinisterDorado ปีที่แล้ว
1:13:34 мне кажется с масштабом проблема. Было сказано, что дисперсия равна 1.
@Vadim_Abbakumov ปีที่แล้ว
У среднего арифметического дисперсия уже не 1.
@ИванТ-в6ю 5 ปีที่แล้ว ⁺⁵
Из википедии:
Ошибки первого рода - «ложная тревога» (начали лечить, когда не нужно было).
и ошибки второго рода - «пропуск цели» (не начали лечить, когда было нужно).
Уточните пожалуйста, почему ошибка первого рода тяжелее по своим последствиям? Пересмотрел и предыдущий курс, там такое же утверждение.
@Vadim_Abbakumov 5 ปีที่แล้ว
Потому что она ограничена маленьким числом, уровнем значимости.
Процент каких ошибок Вы желаете ограничить?
Более тяжелых по своим последствиям.
А доля ошибок 2-го рода может быть большой, может превышать 0.5...
@qwqw2674 4 ปีที่แล้ว
Тоже не сразу понял. В лекции за Н0 - взята гипотеза о том, что человек болен (нуждается в срочной операции), в Википедии же наоборот. Цитата оттуда: "принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) - например, что обследуемый человек здоров".
Из-за этого путаница в интерпретации ошибок первого и второго рода.
@coolbrain 3 ปีที่แล้ว
@@Vadim_Abbakumov тут ведь все зависит какую гипотезу за нулевую взять. Как обычно решение принимается , что нулевая гипотеза - человек болен а не здоров?
@svivanov123 2 ปีที่แล้ว ⁺¹
Тяжелее/не тяжелее - от задачи зависит. Кредиты выдавать - одно, а атомными станциями управлять - совсем другое.
@little_spoon_of_love 2 ปีที่แล้ว
@@qwqw2674 Присоединяюсь. С тяжестью ошибок внесена путаница. Для себя в качестве опоры уяснил пока, что вроде бы нулевая гипотеза всегда обозначает отсутствие различий. То есть с больными будет как-то так: что лечить, что не лечить один фиг, то есть он то ли здоров, то ли уже помер почти. А значит нам важнее уменьшить именно ошибку второго рода.
@ЕвгенийМашканцев-з1ю 4 ปีที่แล้ว
1:59:28
Скажите, пожалуйста, а что Вы думаете по поводу использования моды в качестве центра распределения и типичного значения?
@Vadim_Abbakumov 4 ปีที่แล้ว ⁺⁶
Если переменная измерена в номинальной шкале, то используем моду. Если в количественной шкале, то очень редко. Мода неустойчива, небольшое увеличение выборки может очень сильно ее изменить...
@ЕвгенийМашканцев-з1ю 4 ปีที่แล้ว ⁺¹
@@Vadim_Abbakumov, спасибо за ответ и за лекции, Вы замечательно всё объясняете!
@sabbraxcaddabra 3 ปีที่แล้ว ⁺¹
@@ЕвгенийМашканцев-з1ю видел в интернете отличный пример на эту тему. Моду удобно использовать чтобы описать типичный размер обуви. В том смысле что шкала размеров чаще(вероятно почти всегда) дискретна и ограничена кол-вом размеров.Поэтому например, производитель обуви, когда задумается о том, какого размера ему нужно произвести больше пар, воспользуется модой и произведёт больше всего пар того размера, которого чаще всего покупают. Пример достаточно тривиальный, но по моему неплохо дополняет ответ Вадима Леонардовича об использовании моды, когда переменная номинальная(или ранговая как я привык называть)
@ДенисТ-ю9я ปีที่แล้ว
спасибо!
@OlgaGalanina 10 หลายเดือนก่อน
Это лекции для студентов каких специальностей, факультетов? Это какой курс?
@Vadim_Abbakumov 8 หลายเดือนก่อน
Это лекции для слушателей CSC...
@OlgaGalanina 8 หลายเดือนก่อน
@@Vadim_Abbakumov ага, я сразу так и поняла) что такое csc?)))
@ivanolefirenko5508 ปีที่แล้ว
Почему у человека в среднем меньше 2-х глаз?
Пояснительную бригаду
@МаксимХлынов-з3д 4 ปีที่แล้ว
Вадим Леонардович, а как быть в случае, когда нас интересует альтернативная гипотеза в виде EX > EY? Как я понял, в Питоне при проверке гипотез строго определено: основная гипотеза - равно, альтернативная - не равно.
@Vadim_Abbakumov 4 ปีที่แล้ว ⁺¹
Гуглите "односторонняя гипотеза Критерий Стьюдента" Есть возможность пересчета результатов проверки двусторонней гипотезы в одностороннюю.
@МаксимХлынов-з3д 4 ปีที่แล้ว
@@Vadim_Abbakumov Большое спасибо.
@icanfast 6 ปีที่แล้ว
На моменте с экспоненциальным распределением и зачем оно нужно подумалось о законе Бенфорда)
@pavelbrudanov6701 5 ปีที่แล้ว
Извините что беспокою.
А можно узнать такую вещь: правило трех сигм работает только для нормального распределения?
Или все таки его можно использовать как непараметрический метод, но учитывать, что туда попадет больше 1% наблюдений?
@Vadim_Abbakumov 5 ปีที่แล้ว ⁺²
Работает для величин, у которых гистограмма (на самом деле плотность распределения) имеет один пик. И в интервал попадет 95% наблюдений. А если пиков несколько (мультимодальное распределение), то наверное у нас смесь распределений, и надо с этим разбираться. И немного субъективного: не люблю применять правило трех сигм для несимметричных распределений вроде логнормального.
@pavelbrudanov6701 5 ปีที่แล้ว
@@Vadim_Abbakumov а какими методами статистики кроме 3х сигм и межквартильного расстояния можно пользоватся для поиска аномалий?
Данные примерно такие: набоюдения за три года, шкала от 0 до 100, наблюдаемые одни и теже, пик распределения смещен вправо.
Разница междц максимальным и минимальным значением за три года от 0 до примерно 40.
Около 10 групп наблюдений (это, что то вроде теста данного по разным психологическим конструктам).
Я пробовал просто 3 сигмы, но по некоторым конструктам получил колоссальный пазброс порядка 30 баллов (3 сигмы) решил сделать по другому - взял разницу между максимальным и минимальным значением, тогда 3 сигмы сократились до 21.
Но беспокоит во первых возможность обосновать такой подход, а во вторых его состоятельность в этой ситуации.
Может быть отбросить конструкт который дает такой большой разброс и по остальным провести стандартные 3 сигмы?
Или есть какой то метод о котором я не знаю? :))
Межквартильное расстояние дает еще более плохие результаты.
@Vadim_Abbakumov 5 ปีที่แล้ว
@@pavelbrudanov6701 Методов очень много, всех не перечесть.
Попробуйте методы, свободные от распределения.
Например, вместо среднего - медиана, вместо линейной регрессии
квантильную регрессию и так далее.
И аномальные наблюдения перестанут быть проблемой
@RbWadim 5 ปีที่แล้ว
@@pavelbrudanov6701 В пакете sklearn на Python есть Novelty and Outlier Detection scikit-learn.org/stable/modules/outlier_detection.html Там же есть ссылки на первоисточники, исходя из которых имплементировали алгоритмы.
@НикитаИванов-о1т 3 ปีที่แล้ว
@@Vadim_Abbakumov скажите пожалуйста, у меня две выборки в каждой по 100000 наблюдений,которые распределены логнормально и я хочу проверить гипотезу о равенстве среднего. Мне нужно по критерию Стьюдента их сравнивать, как я привык, или, если я правильно понял вашу лекцию, есть только два других пути: Прологарифмировать или тест на равенство медиан? Совсем не нашел в интернете информации, как проверять такие гипотезы для логнормального, какие статистики искать.
@igorigor8128 6 ปีที่แล้ว
Непонятно с р-уровнем. Если мы задали уровень значимости 0.05 и получили р-значение 0.03, то с одной стороны мы отвергаем основную гипотезу т.к. 0.03 < 0.05, а с другой стороны, для уровня значимости 0.01, более строгого, мы нулевую гипотезу не отвергаем, т.к. 0.03 > 0.01 Как так-то ?!
@Vadim_Abbakumov 6 ปีที่แล้ว
Что значит "строго"?.. В случае перехода с 0.05 к 0.01 мы более строго относимся к идее "отвергнуть основную гипотезу" и отвергаем ее реже
@igorigor8128 6 ปีที่แล้ว
Спасибо@@Vadim_Abbakumov
@evilbat8205 2 ปีที่แล้ว
Думаю зависимость из Швеции заключается в том что птицы прилетают весной, а за этим идёт лето соответственно и сезон отпусков
@gbrs72 ปีที่แล้ว
:) майкельсон-морли не первые, кто измерял скорость света. С 17 века этим безобразием занимаются. Ну, и Плутон тогда не худеет ли? :)
@engeneerengeneer3986 3 ปีที่แล้ว ⁺²
смотрю до 32 минуты одно мыло.... можно было так долго не рассуссоливать. С 56:02 более по делу 1:08:25 примеры начались
@АленаВзорова 2 ปีที่แล้ว
вот, соглашусь, у этого лектора "воды" больше 50%, да еще и путаное объяснение. Скачет с мысли на мысль, с понятия на понятие. Я молчу про примеры из "мезозоя". Чтобы понять, что он транслирует, надо быть "очень в теме", иначе придется идти и искать иные объяснения.
@ДенисТ-ю9я ปีที่แล้ว
есть же нормальные преподаватели. почему мне с ними не везло. емае
@denisbaranoff 3 ปีที่แล้ว
Печальное зрелище. Удивительный квалификации преподаватель и никто ничего не спрашивает. . .Смотря его предыдущие лекции - он реально потрясающий.
@АленаВзорова 2 ปีที่แล้ว ⁺¹
можно быть удивительно квалифицированным и удивительно непонятно объяснять. группа, очевидно, смешанная. студенты не понимают почти ничего, что он вещает. это же очевидно))) отсюда и молчание. иначе бы были вопросы. если студенты "нулевые", то подавать информацию надо было "на пальцах". любой препод бы понял, что студенты в ауте)) а он гнет свое и лишь спрашивает изредка "понятно, коллеги". понятно, что ничего непонятно. п/с/ они пишут про пререквизиты к курсу - знание теорвер, матанализ и тп. но в первой лекции он спросил, кто не знает, что такое квантиль, и студенты подняли руки)))) и что они сейчас должны спрашивать.
@sabbraxcaddabra 3 ปีที่แล้ว
А бывают случаи когда проверка гипотезы о параметрах распределения и совпадении функции распределения выясняют одно и то же? Приведу пример из жизни. Имея некоторый набор данных я предположил, что случайная величина распределена по закону Вейбулла. Далее я используя возможности scipy.stats подобрал для этого распределения коэффициенты которые лучше подходят под данные. Как мне в таком случае проверить правильность подобранного распределения - проверить функцию с получившимися параметрами, или сами параметры распределения? Или это одно и то же ?
@Vadim_Abbakumov 3 ปีที่แล้ว
Вспомним критерий Колмогорова-Смирнова. Если в тестовую статистику подставить оценку, то распределение статистики изменится. Проблему решает поправка Лилиефорса. Здесь так же, но надо гуглить, как подправлять.
@svivanov123 2 ปีที่แล้ว
qq и pp биплоты нужно глазами смотреть. Стандартные тесты не особо надежны

ต่อไป

เล่นอัตโนมัติ

Лекция 6. Проверка статистических гипотез (процедуры Python)