@@hopelesssuprem1867 хоть и понимаю не все(английский не слишком хорошо знаю), но объясняет и вправду очень подробно. Особенно нравится, где он начинает объяснение формулы с оператора равно). Спасибо за рекомендацию
Очень полезная лекция! Забыли проговорить (возможно, я не заметил), что при оценке значения метрики accuracy в задачах, где имеет место серьёзная несбалансированность классов, необходимо сравнивать это значение с «глупым» предсказанием моделью одного класса для всех объектов (если не ошибаюсь, эта штука называется dummy classifier). Т.е. значение 94% точности ни о чем не говорит, если у нас 3000 объектов одного класса и 200 объектов другого :)
Просто людей, которым интересно разрезать арбуз пилой - больше... И если бы датасаентисты этой темой не интересовались - ссылки бы не было, ведь мы же знаем как работает алгоритм рекомендаций youtube, а точнее его часть user-based recommendations :-)
Вопрос по домашнему заданию, каким образом можно составить Х для первой задачи, нет я понимаю как это должно быть, но на тех данных которые вы предоставляете в задании ничего не понятно, особенно новичку. Зачем было сразу разбивать на train и test? Уверяю вас, что процент верных ответов был бы намного больше, предоставив вы просто датасет с данными, и дали бы пользователям сделать все самим. Это мое субъективное мнение, и я не хочу никого обидеть. Могу я у вас попросить решение первого задания, я хочу понять что у меня не получается, заранее благодарен.
Задания и решения на английском можно на главном сайте найти mlcourse.ai/assignments, по ссылке с Хабра на русском - это тогда после заполнения веб-формы появится ссылка на ноутбук с решением. Пример: habr.com/ru/company/ods/blog/322534/: > В качестве закрепления материала предлагаем выполнить это задание nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_russian/assignments_demo/assignment03_decision_trees.ipynb - разобраться с тем, как работает дерево решений, на игрушечном примере, затем обучить и настроить деревья в задаче классификации данных Adult репозитория UCI. Проверить себя можно отправив ответы в веб-форме docs.google.com/forms/d/1bC3jNPH7XZUty_DaIvt0fPrsiS8YFkcpeBKHPSG0hw0 (там же найдете и решение).
> каким образом можно составить Х для первой задачи > Зачем было сразу разбивать на train и test? Посмотрите эту лекцию и/или статью habr.com/ru/company/ods/blog/322534/ - это важные вопросы, и они подробно освещаются
Здравствуйте у меня возникли трудности при выполнении домашнего задания. Есть ли уже готовые домашние задания что бы подсмотреть решение? Заранее Спасибо)
Добрый день! Ответы на демо-задания доступны по ссылке после заполнения веб-формы. В статье на Хабре habr.com/ru/companies/ods/articles/322626/#5-domashnee-zadanie--1 поясняется - "Для разминки/подготовки предлагается поанализировать демографические данные с помощью Pandas. Надо заполнить недостающий код в Jupyter-заготовке и выбрать правильные ответы в веб-форме (там же найдете и решение)."
Подскажите, max_features - число признаков, по которым ищется разбиение. Вот если я укажу 3 из 10, то как берутся признаки? (Поочереди или рандомно) и можно ли посмотреть какие взялись?
виноват, первая часть неверна - думал, отвечаю, про лес, а не про одно дерево :) признаки берутся не случайно, а по критерию информативности ищется наилучшее разбиение (вот если таких несколько - то случайный признак выбирается). Это в 3-ей статье курса детально разобрано.
Точно, в орг-репе завалялось, теперь добавил github.com/Yorko/mlcourse.ai/blob/master/jupyter_russian/topic03_decision_trees_knn/lesson3_decision_trees_dirty_inclass.ipynb
Понимаю, что уже 5 лет прошло, но может кто-нибудь подскажет, как нарисовать дерево из под винды. Юрий в видео говорит, что под виндой могут возникнуть проблемы и у меня они возникли.
Спасибо за ответ! Я как раз вчера всё же нашёл решение с помощью чата ГПТ. Если кому интересно, код вот такой: import pydotplus from IPython.display import Image dot_data = export_graphviz(tree_greed.best_estimator_, out_file=None, feature_names=X.columns, filled=True) graph = pydotplus.graph_from_dot_data(dot_data) Image(graph.create_png()) Ну и ещё нужно было GraphViz установить. За ссылку на веб-сервис всё равно спасибо!
@@Боголюбов-с7с 1. Помогите, не работает! 2. Вот есть рабочее решение онлайн прямо в браузере, пользуйтесь! 3. Я потратил два дня и заставил работать! Спасибо!
Хоть и прошло 3-4 года, это все еще лучший курс
Спасибо, Ильназ!
Посмотрите курсы Эндрю Ына. Это единственные курсы, где нормально объясняется математика внутри алгоритмов ML и дается их реализация.
@@hopelesssuprem1867 хоть и понимаю не все(английский не слишком хорошо знаю), но объясняет и вправду очень подробно. Особенно нравится, где он начинает объяснение формулы с оператора равно). Спасибо за рекомендацию
@@DJsasha15речь о ком?Andrew Ng?
Перерыв с 1:34:00 до 1:45:53
Очень полезная лекция! Забыли проговорить (возможно, я не заметил), что при оценке значения метрики accuracy в задачах, где имеет место серьёзная несбалансированность классов, необходимо сравнивать это значение с «глупым» предсказанием моделью одного класса для всех объектов (если не ошибаюсь, эта штука называется dummy classifier). Т.е. значение 94% точности ни о чем не говорит, если у нас 3000 объектов одного класса и 200 объектов другого :)
Спасибо! О дисбалансе классов и доле верных ответов было уже в первой лекции habr.com/ru/company/ods/blog/322626/
такие видео должны выходить в тренды ютюба, вместо "что будет если разрезать арбуз бензопилой"
Просто людей, которым интересно разрезать арбуз пилой - больше... И если бы датасаентисты этой темой не интересовались - ссылки бы не было, ведь мы же знаем как работает алгоритм рекомендаций youtube, а точнее его часть user-based recommendations :-)
а что будет если разрезать арбуз бензопилой?
@@vadimborisov4824 тоже хотел спросить.
И мне вот тоже интересно
1:07 - knn
В случае с KNN надо было сделать шкалирование перед передачей выборки в модель, тогда она была бы точнее
Верное замечание. Далее используется пайплайн. Поправил и в начале. Да, стало .89 вместо .88 :)
Вопрос по домашнему заданию, каким образом можно составить Х для первой задачи, нет я понимаю как это должно быть, но на тех данных которые вы предоставляете в задании ничего не понятно, особенно новичку. Зачем было сразу разбивать на train и test? Уверяю вас, что процент верных ответов был бы намного больше, предоставив вы просто датасет с данными, и дали бы пользователям сделать все самим. Это мое субъективное мнение, и я не хочу никого обидеть. Могу я у вас попросить решение первого задания, я хочу понять что у меня не получается, заранее благодарен.
Задания и решения на английском можно на главном сайте найти mlcourse.ai/assignments, по ссылке с Хабра на русском - это тогда после заполнения веб-формы появится ссылка на ноутбук с решением. Пример: habr.com/ru/company/ods/blog/322534/:
> В качестве закрепления материала предлагаем выполнить это задание nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_russian/assignments_demo/assignment03_decision_trees.ipynb - разобраться с тем, как работает дерево решений, на игрушечном примере, затем обучить и настроить деревья в задаче классификации данных Adult репозитория UCI. Проверить себя можно отправив ответы в веб-форме docs.google.com/forms/d/1bC3jNPH7XZUty_DaIvt0fPrsiS8YFkcpeBKHPSG0hw0 (там же найдете и решение).
> каким образом можно составить Х для первой задачи
> Зачем было сразу разбивать на train и test?
Посмотрите эту лекцию и/или статью habr.com/ru/company/ods/blog/322534/ - это важные вопросы, и они подробно освещаются
Здравствуйте у меня возникли трудности при выполнении домашнего задания. Есть ли уже готовые домашние задания что бы подсмотреть решение? Заранее Спасибо)
Добрый день! Ответы на демо-задания доступны по ссылке после заполнения веб-формы. В статье на Хабре habr.com/ru/companies/ods/articles/322626/#5-domashnee-zadanie--1 поясняется - "Для разминки/подготовки предлагается поанализировать демографические данные с помощью Pandas. Надо заполнить недостающий код в Jupyter-заготовке и выбрать правильные ответы в веб-форме (там же найдете и решение)."
@@festline спасибо!
Подскажите, max_features - число признаков, по которым ищется разбиение. Вот если я укажу 3 из 10, то как берутся признаки? (Поочереди или рандомно) и можно ли посмотреть какие взялись?
признаки берутся случайно, можно нарисовать дерево и увидеть, какие признаки задействованы. В 3 статье курса есть примеры, как визуализировать деревья
виноват, первая часть неверна - думал, отвечаю, про лес, а не про одно дерево :) признаки берутся не случайно, а по критерию информативности ищется наилучшее разбиение (вот если таких несколько - то случайный признак выбирается). Это в 3-ей статье курса детально разобрано.
@@festline спасибо
Возник вопрос: "Может ли результат работы дерева решений на тестовой выборке быть лучше, чем на обучающей выборке?"
да, при сильной регуляризации и в силу случайности разбиения - и такое может быть
Для тех, кто не понял про энтропию:
th-cam.com/video/e8GzCI8LMYA/w-d-xo.html
Можете ли выложить скрипт? Сейчас на сайте только Титаник и статья, этого нет
Точно, в орг-репе завалялось, теперь добавил github.com/Yorko/mlcourse.ai/blob/master/jupyter_russian/topic03_decision_trees_knn/lesson3_decision_trees_dirty_inclass.ipynb
Понимаю, что уже 5 лет прошло, но может кто-нибудь подскажет, как нарисовать дерево из под винды. Юрий в видео говорит, что под виндой могут возникнуть проблемы и у меня они возникли.
в принципе можно даже не рисовать локально, а использовать sklearn.tree.export_graphviz и веб-сервис webgraphviz.com/ для отрисовки дерева
Спасибо за ответ! Я как раз вчера всё же нашёл решение с помощью чата ГПТ. Если кому интересно, код вот такой:
import pydotplus
from IPython.display import Image
dot_data = export_graphviz(tree_greed.best_estimator_, out_file=None, feature_names=X.columns, filled=True)
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())
Ну и ещё нужно было GraphViz установить.
За ссылку на веб-сервис всё равно спасибо!
Добрый день, а как быть тем у кого винда с graphviz? Подскажите пожалуйста.
Можно вообще ничего не ставить и пользоваться www.webgraphviz.com/
@@festline спасибо, потанцевал с бубном и на винде все заработало. Спасибо за курс, хорошего дня, товарищ преподаватель!
@@Боголюбов-с7с
1. Помогите, не работает!
2. Вот есть рабочее решение онлайн прямо в браузере, пользуйтесь!
3. Я потратил два дня и заставил работать! Спасибо!