Airflow и MLFlow автоматизаций пайплайнов Machine Learning / MLOps
ฝัง
- เผยแพร่เมื่อ 3 พ.ค. 2021
- Разверните облачный сервер для Data Science в Selectel: slc.tl/JSss5, получите 1000 бонусных рублей по промокоду miracl6
Новая группа про Data Science ВКонтакте pymagic
Курс Data Science для начинающих PyMagic
Подробная информация о курсе, программа обучения по ссылке - pymagic.ru
Репозиторий с кодом из видео:
github.com/miracl1e6/auto-pip...
Доументация Airflow airflow.apache.org
Инфа на русском ru.bmstu.wiki/Apache_Airflow
Доументация MLFlow www.mlflow.org/docs/latest/in...
Группа в ВКонтакте pymagic
Telegram t.me/pymagic
#datascience #mlops #mlflow #airflow - วิทยาศาสตร์และเทคโนโลยี
Люблю такие видео длительностью по часу, где все по болтикам разбирается. Но соблазн отложить просмотр таких видео на потом гораздо выше, чем у простых десятиминутных:)
Спасибо, было полезно!
Очень интересно, с нетерпением жду следующее видео про чистый код!
Огромное спасибо за ваш труд!! Ваш код лаконичен и гениален!!! )))
Очень мощно! Большое спасибо!
Наконец дорос до пайплайнов)
Настя, большое спасибо за видео!
я сказал это профессиональной. молодец с mlflow и MLOps видео!
Очень ждём!
Спасибо Анастасия!
нравится как произносишь scheduler как шидулер
3 дня как вкатываюсь в тестирование в области Mlops, пока что ничего не понятно но очень интересно)
спасибо за видео
Годнота)
Интересные видео, спасибо!
numpy дважды импортирован, это не влечёт за собой ошибку? только начал питона душить, ещё не пробовал так делать...
dry and wet ...
Очень познавательно
Полезные инструменты)
Добрый день.
А на Линуксе удобно программировать? Нет ли специального ПО только под винду?
Спасибо!
42:40 чтобы не ждать, можно прописать команду airflow db init
Ничего не понятно, но очень интересно :)
Добрый день. Правильно ли я понимаю что AirFlow это инструмент для автоматизации запуска задач? Чем он отличается от широко известного Jenkins? Хуже или лучше?
Очень полезное видео. Всё от и до, с живыми примерами и без воды. +1 на карму ))
Особенно понравилась организация рабочего пространства и качество-понятность кода. Я лично так не пишу, поэтому тут плюсик.
а вот про сами инструменты выглядит просто как дань моде "сейчас все используют и я буду", имхо разумеется.
Про mlflow - выглядит как реальное усложнение процесса. ну вот сколько моделей вы обычно тестируете? 1,2,3 максимум. Если больше - возможно вы не знаете, что вам нужно? про параметры - Бог дал вам GridSearch - стабильно, удобно, практично. Зачем еще куча софта и лишнего кода с повышением вероятности косякнуть - не понятно.
про airflow - игрушка конечно прикольная и модная, но всё же она больше для дата инженеров, перегонка данных из дохрена источников, отказоустойчивость и прочее. Для дата сатаниста, что бы запускать модельки по расписанию можно заюзать обычный крон, а не мудохаться с установкой самого софта и настройками ДАГов.
в общем мой посыл в чем? Видео крутое, но не нужно усложнять там, где не нужно. Лучше сконцентрируйтесь на качестве самих алгоритмов. А то инструменты сейчас знают все, а качественный продукт выпускают единицы. Желаю Вам успехов :)
Это обучающее видео, в том и суть чтобы о чем-то рассказать, не? Мне вот интересно про всю эту лабуду было послушать, тем более не от прыщавого индуса на ломаном английском.
Анастасия, а куда записываются результаты прогноза модели на проде, это какой-то ексель, csv-файл? В уроке это test.csv в папке data, правильно понимаю?)
Ваше репо уже недоступно?
Я пропиарил ваше видео у себя в телеграм чате)
Добрый день! Как сделать, что-бы в одном даге таски выполнялись с разными параметрами в зависимости от дня недели. Мы можем передать словарь params={"full": True} (в настройках дага), но чтоб этот параметр например в субботу становился False?
@@miracl6 спасибо, я так и сделал!
крутое видео о работе дата саинс
Кстати, как например Neptune в сравнении с Airflow. Работая c Airflow выявил недостатки интерфейса. Например вывод только в txt файлы, что неудобно. А Neptune при простоте установки довольно хорошую визуализацию предоставляет. Правда нет такой репликации процессов, как в Airflow. Хотя может ошибаюсь.
Почему трейн каждую минуту а предикт каждые 2? разве так в процессе результат одной из трейн не будет потерено? заранее спасибо
Cubeflow, AWS Sagemaker работают с ноутбуками. Отличный туториал, забыл добавить.
@@miracl6 кстати сумел сделать cron shedule в виде branching и short circuit внутри дага. Всё работало.
Спасибо, как то мельком слышал названия этих инструментов, но для чего конкретно они нужны только сейчас узнал))
А что если я хочу на ночь позапускать одну и ту же модельку, но с разными параметрами и на утро получить некий документ с результатами этих параметров? аирфлоу это позволяет сделать?
Или скажем сравнить датасет А и Б, обучить сетку по каждому датасету(желательно несколько раз) с одинаковыми параметрами и в конце выдать результаты по лучшей метрике? Было бы удобно если этот инструмент позволял это сделать. Заранее спасибо))
P.S. Конечно же ждем видео по чистоте своего кода, было бы интересно.
@@miracl6 Понял, принял, спасибо)
Где видио по чистому коду?)
Хорошо, конечно, но лучше было показать установку на практике
Красотка, подскажи на какую камеру снимаешь видео?)
@@miracl6 несмотря на это картинка все равно качественная
@@miracl6 само собой)
автор алгебра алгоритм анализ аналитик аналитика анастасия английский база бесплатный!
(очень крутое и полезное видео)
можешь выложить этот проект на гитхаб?)
А я тебя узнал, когда свой канал запустишь?)
а проблем с сохранением артефактов не возникало? ))
@@miracl6 может это с виндой проблемы?
Вроде дописываю и в командной строке при запуске и в artifact_path
@@miracl6 Он (mlflow) правда в трассировщик ошибок дописывает какую то несуществующую директорию к той, которую указываю в командной строке
@@miracl6 а команды что бы поменять директорию артефактов из jupyter notebok я не нашел )))
@@miracl6 ну сет трэкинг у меня локалхост, а венв я не ставил - у меня все в одной куче.
@@miracl6 не, все пробовал.
Нашел такую же ошибку, но там не предложили решения на сколько я вижу.
Попробую сегодня hdfs установить на локальную машину, что бы грузить артефакты туда.
По комментариям в коде не согласен. Их не нужно пихать везде, если очевидно, что он делает. Тем более, правильное именование переменных берет на себя эту функцию.
И непонятно, почему log_metric/metrics не используется. Разве его не было?
Куку