Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы

แชร์
ฝัง
  • เผยแพร่เมื่อ 15 ส.ค. 2018
  • compscicenter.ru/
    Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
    Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
    Преподаватель курса: Вадим Леонардович Аббакумов

ความคิดเห็น • 90

  • @charozetta
    @charozetta 2 หลายเดือนก่อน

    Первый раз в жизни я с реальным интересом слушаю лекции по статистике....

  • @user-fi5hr6us4r
    @user-fi5hr6us4r 4 ปีที่แล้ว +38

    Лучшее, чем можно заняться в самоизоляции

    • @user-ek4vg8mv6n
      @user-ek4vg8mv6n 3 ปีที่แล้ว

      Крутое видео!
      Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ th-cam.com/video/MlxMJRZs3zg/w-d-xo.html

  • @dmitriy7192
    @dmitriy7192 ปีที่แล้ว +5

    Авторизировался на TH-cam только для того, чтобы поставить "лайк" лекциям! Спасибо большое Вадим Леонардович за ваши лекции, смотрел на одном дыхании, как сериал с Netflix)

  • @sfffq7236
    @sfffq7236 4 ปีที่แล้ว +4

    Пожалуй, один из лучших лекторов, которых я слышал в жизни. Говорит просто о сложных вещах.

  • @user-tv7qu6qh1u
    @user-tv7qu6qh1u ปีที่แล้ว +5

    И умный, и добрый, и остроумный))) слушать лекцию - одно удовольствие)) спасибо

  • @ivanaaa6049
    @ivanaaa6049 6 ปีที่แล้ว +36

    Большое спасибо за лекции! Уже думал, что придется статистику с помощью R изучать, а этот лектор уже курс и на Python создал! Очень хорошо, что есть возможность использовать современные быстро- развивающиеся технологии.

  • @user-sc1ui1wp9x
    @user-sc1ui1wp9x 4 ปีที่แล้ว +13

    Очень приятный преподаватель, слушаю с невероятным интересом и советую всем друзьям, видео этого лектора.

  • @nicko6815
    @nicko6815 4 ปีที่แล้ว +5

    Благодарности за Ваш труд!!!

  • @user-mn3ds2il4o
    @user-mn3ds2il4o 2 ปีที่แล้ว +4

    Обе части лекций просто великолепны. Да, код местами неоптимален, но не это главное. Главное - потрясающее об'яснение, чувство материала на кончиках пальцев и отдельное спасибо за интеллигентный, питерский юмор - разобран на цитаты ))

  • @user-nm8jd9vn2s
    @user-nm8jd9vn2s 5 ปีที่แล้ว +4

    Большое спасибо за материал. Очень интересно.

  • @JestZastrelshik
    @JestZastrelshik 2 ปีที่แล้ว +1

    Спасибо, Вадим! Прекрасно объясняете!

  • @dmitriyhd5630
    @dmitriyhd5630 5 ปีที่แล้ว +1

    Бомба! Большое спасибо за Лекции!

  • @Irades
    @Irades 2 ปีที่แล้ว +2

    Потрясающий лектор, спасибо!)

  • @YuriyGontar
    @YuriyGontar ปีที่แล้ว

    Прекрасная лекция, спасибо! Снимайте еще!

  • @mariekey913
    @mariekey913 3 ปีที่แล้ว +2

    Спасибо за лекцию! Все было понятно и хорошо объяснено, с примерами из жизни

  • @user-gi8tt9fz6x
    @user-gi8tt9fz6x 3 ปีที่แล้ว +1

    Про ядерные оценки плотности на мой взгляд можно почетче. и Вообще наверное можно все тоже самое и побыстрее, однако, это ведь запись лекции. Лектору огромное спасибо, что выкладывает в общий доступ материалы.

  • @user-yf5uc3ug4w
    @user-yf5uc3ug4w 3 ปีที่แล้ว +3

    Нет слов, это просто клад.

  • @user-zp7ey1sl5b
    @user-zp7ey1sl5b 5 ปีที่แล้ว +9

    Супер лектор, вообще класс) Смотрел с удовольствием

  • @user-cf9pn9tr4w
    @user-cf9pn9tr4w 3 ปีที่แล้ว +21

    Если пробуете на Pyton 3.8+ то строка "AH['SalePrice'].hist(bins=60, normed=1);" выдаст ошибку.
    Для получения результата замените normed на density.

  • @Dmitrykholodov
    @Dmitrykholodov 3 ปีที่แล้ว

    Очень интересно послушать. Спасибо!

  • @shandi1241
    @shandi1241 4 ปีที่แล้ว +17

    "эти люди часто делают ошибки, они этим в основном и занимаются" хех :-D

  • @gogetcha5430
    @gogetcha5430 2 ปีที่แล้ว

    Спасибо за лекцию!

  • @georgemichael6884
    @georgemichael6884 2 ปีที่แล้ว

    лектор отличный!только ради его манеры изложения стоит смотреть!

  • @powerquerypowerbi7808
    @powerquerypowerbi7808 ปีที่แล้ว

    спасибо!

  • @user-nw9dx4fj9s
    @user-nw9dx4fj9s 3 ปีที่แล้ว

    пару секунд вспоминал что такое R`n`B, время летит конечно)))

  • @user-jd2jk1mx7s
    @user-jd2jk1mx7s 6 ปีที่แล้ว +1

    Подскажите, пожалуйста, а где взять все эти датасеты - продажа домов в Айове и тд?

  • @Uni-Coder
    @Uni-Coder 4 ปีที่แล้ว +1

    26:00 Пример с рулеткой шикарен. Согласен чуть более чем полностью.
    Если вы точно знаете, что распределение 50/50 - не имеет значения, на что ставить.
    Если у вас нет априорной информации о распределении, и всё, что у вас есть - это накопленная статистика, ставьте на красное.
    -Но как объяснена ядерная оценка плотности, мне не понравилось.-

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 ปีที่แล้ว +2

      Не надо так загадочно... Что не понравилось с ядерными оценками? Логические ошибки, скрипт, цыканье зубом?...

    • @Uni-Coder
      @Uni-Coder 4 ปีที่แล้ว

      @@Vadim_Abbakumov Если посмотреть внимательно и вдумчиво, то всё нормально. Просто очень непривычно :)

  • @UnitXXVII
    @UnitXXVII ปีที่แล้ว

    Вадим Леонардович, а можете поделиться ноутбуками из лекций или хотя бы датафреймами?

  • @user-fk3gy5qg5c
    @user-fk3gy5qg5c 5 ปีที่แล้ว

    Подскажите, пожалуйста, если один из предикторов имеет бимодальное распределение ,то стоит ли строить 2 разные модели ,разбив предиктор на 2 унимодальных интервала ?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 ปีที่แล้ว +3

      В моем примере с фордом Мустанг обязательно. если пики гистограммы не интерпретируемы, то иногда нет...

  • @Voronza
    @Voronza หลายเดือนก่อน

    9я минута. Кроме перечисленных шкал есть ещё абсолютная.

    • @Voronza
      @Voronza หลายเดือนก่อน

      И шкала равных отношений

  • @user-fs4ux8yh7e
    @user-fs4ux8yh7e ปีที่แล้ว +2

    Всем привет, а где можно взять файлы которые он использует в лекциях ?

  • @igorpadalko3907
    @igorpadalko3907 4 ปีที่แล้ว

    Здравствуйте,
    А есть ответы по заданиям которые были в курсе? Для самопроверки. Заранее ОГРОМНОЕ СПАСИБО!

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 ปีที่แล้ว

      Нет. Многие задачи имеют несколько решений...

  • @MrZlobec
    @MrZlobec 5 ปีที่แล้ว +3

    Добрый день! Отличный курс. Правильно ли я понимаю что Автор видит Python как более перспективный язык для анализа данных по сравнению с R?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 ปีที่แล้ว +13

      Нет.
      IMHO на сегодняшний день выбор однозначен:
      и R и Python одновременно.
      Что-то лучше реализовано в R (например прогнозирование).
      В Python намного лучше Deep Learning.
      Если все же выбирать что-то одно, то R лучше.
      Для знающих Python заметно больше вакансий.

    • @viacheslavspitsyn2995
      @viacheslavspitsyn2995 5 ปีที่แล้ว +1

      @@Vadim_Abbakumov Но если вакансий больше для знающих Python, то почему нужно выбирать R?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 ปีที่แล้ว +11

      Для задач продвинутой аналитики в питоне мало процедур, и они часто плохого качества.
      В этих случаях лучше использовать R.
      @@viacheslavspitsyn2995

    • @user-fn8pe2dd6r
      @user-fn8pe2dd6r 4 ปีที่แล้ว +1

      @@Vadim_Abbakumov Как сказал один очень уважаемый человек, если вы статист и хотите немного программировать - выбирайте R. Если вы больше программист и немного статистик - выбирайте питон

    • @Uni-Coder
      @Uni-Coder 4 ปีที่แล้ว +3

      Думаю, через несколько лет от R будет полный отказ. Синтаксис этого языка ужасен.
      Но пока он нужен, потому что на нём действительно есть ВСЁ.
      Приходится иногда самостоятельно разрабатывать кластеризацию, случайный лес и т. п,. и тут R служит тестовой базой, чтобы было на чём протестировать свои алгоритмы.

  • @yellowknife4111
    @yellowknife4111 3 ปีที่แล้ว

    у меня было +27 ставок подряд

  • @user-fk3gy5qg5c
    @user-fk3gy5qg5c 5 ปีที่แล้ว +1

    Подскажите,пожалуйста, зачем нам нужно стандартизировать данные при использовании линейных алгоритмов машинного обучения? Нужно ли стандартизировать данные при анализе одной гистограммы?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 ปีที่แล้ว +2

      В линейной регрессии, наивном байесе и дискриминантном анализе не надо. В гистограммах не надо. После стандартизации наблюдения перестают быть независимыми, это плохо. Иногда (кластерный анализ, нейронные сети) стандартизация - неизбежное зло.

    • @user-wd2xw9oh7w
      @user-wd2xw9oh7w 3 ปีที่แล้ว

      @@Vadim_Abbakumov простите, а где про это можно прочитать на русском, или дальше в лекциях будет о том, почему перестают быть независимыми? Просто интуитивно совсем непонятно, почему от простого изменения масштаба пропадает независимость [стандартизация это ведь просто перевести всё в один масштаб?]

    • @user-wd2xw9oh7w
      @user-wd2xw9oh7w 3 ปีที่แล้ว

      ой, перепутал, видимо имеется в виду приведение выборки к такой, у которой выборочное среднее 0 и разброс 1, но все равно если честно непонятно, как такое преобразование может сделать независимые величины зависимыми?

    • @user-wd2xw9oh7w
      @user-wd2xw9oh7w 3 ปีที่แล้ว

      @@Vadim_Abbakumov не подскажете? Так и не нашел нигде про это...

    • @Cyrill_Murashev
      @Cyrill_Murashev ปีที่แล้ว

      @@user-wd2xw9oh7w, всё просто. При стандартизации по методу z-score используются выборочные средние и стандартные отклонения. Они зависят от всех наблюдений. Следовательно, при вычислении z-меток для отдельных наблюдений используются данные о всей выборке, т.е. количественный признак отдельного наблюдения уже не "сам по себе", а функция от значений всех набюлюдений выборки.

  • @ivanvekhov6743
    @ivanvekhov6743 3 ปีที่แล้ว +1

    вопрос первый, Где кнопка "Поставить лектору пивас?". второй вопросец: какие 2-3 основные книжки стоит читать как учебники/доп, литературу к такому курсу?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 3 ปีที่แล้ว +10

      Hastie, Tibshirani, Friedman
      The Elements of Statistical Learning: Data Mining, Inference, and Prediction
      2 edition
      Бесплатно, есть русский перевод (за деньги)
      Goodfellow, Bengio, Courville
      Deep Learning
      Бесплатно, есть русский перевод (за деньги)
      Geron
      Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems
      2 edition
      Есть русский перевод (за деньги)

  • @ivanaaa6049
    @ivanaaa6049 6 ปีที่แล้ว +1

    Можно где- то "ноутбуки" с лекции найти?

    • @romanshpilev767
      @romanshpilev767 5 ปีที่แล้ว +9

      Вот здесь
      compscicenter.ru/courses/data-mining-python/2018-spring/classes/
      Не ко всем заданиям ноутбуки прикрепили, но есть слайды и датасеты

    • @ivanaaa6049
      @ivanaaa6049 5 ปีที่แล้ว

      Спасибо!

  • @oplesser
    @oplesser 6 ปีที่แล้ว +2

    Добрый день! Спасибо за Ваши лекции! Скажите пожалуйста, а почему так разнится время лекций? Часть лекций больше одного часа (есть даже больше двух часов) а часть лекций около 20-30 минут....

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 6 ปีที่แล้ว +26

      Видеозаписи переклеены так, чтобы на лекцию приходилась одна тема от начала до конца. Мне показалось, что многим неудобно, когда интересующая их тема начинается в середине лекции.

    • @oplesser
      @oplesser 6 ปีที่แล้ว

      Понял, спасибо!

  • @Booogieman
    @Booogieman 4 ปีที่แล้ว +4

    лайк за взломанный Total Commander!

    • @nikolaisalikov1257
      @nikolaisalikov1257 3 ปีที่แล้ว

      Зашел написать этот комментарий.

  • @user-cr4us8qg7r
    @user-cr4us8qg7r 2 ปีที่แล้ว

    Здравствуйте Вадим Леонардович! Вы говорили что делали коммерческие работы по кластеризации для разных организаций. Был ли экономический эффект от вашей работы и если да, то можно ли его выразить в цифрах?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 2 ปีที่แล้ว

      Нельзя выразить в цифрах. У меня кластеризация - промежуточный (хотя и важный) этап решения большой задачи, обычно маркетинговой. Эффект легко оценить для всей задачи, а не ее этапа. Когда модель построена, теоретически можно провести эксперимент, и посмотреть, что будет, если исключить этап с кластеризации. Но на практике кто будет этим заниматься.
      Как, например, Вы будете оценивать экономический эффект от предварительной стандартизации переменных?

    • @user-cr4us8qg7r
      @user-cr4us8qg7r 2 ปีที่แล้ว

      @@Vadim_Abbakumov спасибо огромное за ответ. Просто я уже давно занимаюсь автоматизация бизнеса и хочется выйти за рамки банальных задач. Поэтому изучаю в том числе по Вашим лекциям различные статистические методы и нейронные сети. Но сложно идёт, по несколько раз пересматриваю и переслушиваю лекции

    • @user-cr4us8qg7r
      @user-cr4us8qg7r 2 ปีที่แล้ว

      @@Vadim_Abbakumov тогда короткий вопрос. Я по старой статистике определил кластеры клиентов. А далее у меня появляется новый клиент у которого не достаёт некоторых данных (средний чек, количество покупок). Я хочу спрогнозировать в какой кластер он попадет(я вычисляют расстояния) и в итоге он оказывается в 3-х кластерах. А далее я вывожу вероятность попадания в тот или иной кластер из 3-х, на основании количества покупателей(попавших туда при обучении) в каждом кластере. Такая модель имеет права на жизнь? Или есть какой то принципиальный изъян?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 2 ปีที่แล้ว

      @@user-cr4us8qg7r Поздравляю. Вы независимо изобрели нечеткую кластеризацию (fuzzy clustering, C-means). Дальше гуглите сами, те, кто придумал метод до Вас продвинулись далеко.

    • @user-cr4us8qg7r
      @user-cr4us8qg7r 2 ปีที่แล้ว

      @@Vadim_Abbakumov спасибо Вам за ответы.

  • @juliakorovkina1663
    @juliakorovkina1663 ปีที่แล้ว

    Где взять самую первую базу данных? Как скачать?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov ปีที่แล้ว +1

      Как называется файл? ameshousing Ну так гуглите это слово...

  • @MinisterDorado
    @MinisterDorado ปีที่แล้ว

    19:40 Те люди, кто парсят сайты делают много ошибок, они этим в основном и занимаются. LOL

  • @vladodl3445
    @vladodl3445 4 ปีที่แล้ว

    Я как понял,курс не для новичков?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 ปีที่แล้ว

      Для новичков в анализе данных. С базовым владением питоном

    • @vladodl3445
      @vladodl3445 4 ปีที่แล้ว

      @@Vadim_Abbakumov спасибо,а не подскажишь годный курс по питону?)

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 ปีที่แล้ว +1

      @@vladodl3445 не особенно в теме... курс Лебедева хороший, но он не для новичков

    • @user-ek4vg8mv6n
      @user-ek4vg8mv6n 3 ปีที่แล้ว

      @@Vadim_Abbakumov Крутое видео!
      Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ th-cam.com/video/MlxMJRZs3zg/w-d-xo.html

  • @gadkiy_designer
    @gadkiy_designer 11 หลายเดือนก่อน

    Вот мне интересно с первых секнд лекций - какого хрена преподают на примере домов в айове, а не на данных наших рынков? Нет что ли на наших примерах задач?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 หลายเดือนก่อน

      В том-то и дело, что нет...

  • @_meta_data_9992
    @_meta_data_9992 3 ปีที่แล้ว

    Анализ данных с нуля, data science, python: th-cam.com/video/qWBNK0ydGUM/w-d-xo.html

  • @user-nq1ne7uq2t
    @user-nq1ne7uq2t 2 ปีที่แล้ว +3

    Некоторые обьяснения очень путаные. Квантиль обьяснял так, что только запутал. Нет чтобы нарисовать распределение и показать. Слушатели знают основы статистики? Если квантили не знают, то, видимо, не сильно знают. Если нет, то обьяснения никуда не годятся. Диаграмму зачем строят? Не прозвучало даже слово "нормальное распределение"... Вообще, глаголит путано, скачет с одного понятия на другое...ерунда, а не лекция.

    • @Arian_9615
      @Arian_9615 8 หลายเดือนก่อน +1

      Полностью согласен, я сам знаю что такое квантиль, но мне было сложно понять по его объяснению, из всех возможных объяснений, лектор выбрал самое сложное непонятное.

  • @ostrov11
    @ostrov11 4 ปีที่แล้ว

    препод давно был в Айове ??? и был ли вообще ???

    • @TTYY-ml7rb
      @TTYY-ml7rb 4 ปีที่แล้ว

      И к чему это?

    • @ostrov11
      @ostrov11 4 ปีที่แล้ว

      @@TTYY-ml7rb к тому же, к чему и Айова

    • @dariaarkhipova5419
      @dariaarkhipova5419 4 ปีที่แล้ว +1

      Зря вы так, лектор шикарен