Лекция 3. Кластерный анализ

แชร์
ฝัง
  • เผยแพร่เมื่อ 5 ต.ค. 2024
  • Иерархический кластерный анализ. Кластер, расстояния между объектами, расстояния между кластерами. Алгоритм построения дендрограммы. Каменистая осыпь/локоть. Стандартизация данных. Типичные ошибки при подготовке данных. Интрепретация результатов.
    Лекция №3 в курсе "Анализ данных на R в примерах и задачах" (весна 2016).
    Преподаватель курса: Вадим Леонардович Аббакумов
    Страница лекции на сайте CS центра: goo.gl/zPVzhF
    Ссылка на все лекции курса: goo.gl/1VmEdf

ความคิดเห็น • 21

  • @АртемСмирнов-о2ч
    @АртемСмирнов-о2ч 8 ปีที่แล้ว +11

    Самое лучшее объяснение. СПАСИБО ОГРОМНОЕ.

  • @maximnasurdinov5276
    @maximnasurdinov5276 4 ปีที่แล้ว +2

    Отличная лекция, спасибо!!!

  • @klepikovmd
    @klepikovmd 2 ปีที่แล้ว +1

    Прекрасная лекция!

  • @maximlubii9414
    @maximlubii9414 4 ปีที่แล้ว +1

    Большое спасибо!!!

  • @galibefendiyev7805
    @galibefendiyev7805 6 ปีที่แล้ว +1

    Спасибо, профессионально

  • @MilleniumProfi
    @MilleniumProfi 7 ปีที่แล้ว +1

    Спасибо

  • @nesovsemenot
    @nesovsemenot 7 ปีที่แล้ว +1

    К последней задаче (3ей) не показано, что на проектор транслируется.

  • @katyapetrova3566
    @katyapetrova3566 ปีที่แล้ว

    а откуда брать данные из лекции (скрипты)

  • @photon9456
    @photon9456 ปีที่แล้ว

    😅"Ну коллеги, понятно!" (с)

  • @ЕленаСемчук-о5е
    @ЕленаСемчук-о5е 7 ปีที่แล้ว +1

    Спасибо огромное и низкий поклон! Понятно и мне как новичку.
    Вопрос:
    Слишком много переменных - не гуд, это понятно.
    Но как знать какие переменные важны, только экспертная оценка?
    А если по каждой характеристике (переменной) сделать сделать кластерный анализ.
    И потом объединить в сегменты клиентов у которых на 70%, например, совпадет попадание в кластеры по всем переменным?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 7 ปีที่แล้ว +1

      Пример. Сегментация потенциальных клиентов туристического агентства.
      Есть результаты опроса, определяющего психотип (модно сейчас).
      Есть хорошая кластеризация клиентов по психотипу.
      Аналитику она не нужна, ему полезнее плохая кластеризация по уровню дохода, региону проживания, составу семьи.
      Я к чему: математика не должна победить здравый смысл.
      В вашей модели хорошая кластеризация по ненужным переменным приведет к бесполезному решению.
      Для этого нужна экспертная оценка.
      Еще раз. Цель аналитика не хорошая кластеризация, а полезная кластеризация.
      Даже больше. Для решения разных задач один и тот же набор данных может породить разные кластеризации. Как повезет, конечно. Скудный набор данных может не привести ни к одной.

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 7 ปีที่แล้ว

      По процедуре.
      Я бы развернул Вашу идею немного.
      Если есть устраивающая нас кластеризация, но мы хотим отбросить неинформативные переменные, можно сравнить значения переменной в разных кластерах. Если различие статистически не значимо, переменная неинформативна.

    • @andrews2854
      @andrews2854 4 ปีที่แล้ว +1

      @@Vadim_Abbakumov Неинформативные переменные уберем последующей регрессией...

  • @MrMezolick
    @MrMezolick 5 ปีที่แล้ว

    А где можно скачать эти наборы данных?

    • @kolomasov
      @kolomasov 4 ปีที่แล้ว

      Смотри в описании к лекции - Страница лекции на сайте CS центра. Там есть все данные.

  • @spider_vision
    @spider_vision 6 ปีที่แล้ว

    а трехмерную визуализацию в R можно сделать?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 6 ปีที่แล้ว +1

      Можно. Ищем в гугле по запросу "3d visualization in r", нашлось 95 800 000 страниц.

    • @spider_vision
      @spider_vision 6 ปีที่แล้ว

      немного меньше - 39 200 000 результатов ))) спс!

    • @garrygaller2853
      @garrygaller2853 5 ปีที่แล้ว +1

      "нашлось 95 800 000 страниц." А у меня 149 млн результатов. Но это ложь: поисковики никогда не знают сколько действительно есть релевантных страниц. Они выдают топ, а общая циферка просто результат апроксимации.

    • @ilyin_sergey
      @ilyin_sergey 5 ปีที่แล้ว

      @@Vadim_Abbakumov главная проблема R - слишком дохрена всего в cran, замучаешься искать

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 ปีที่แล้ว

      @@ilyin_sergey Если это главная проблема, то проблем нет