ETL на airflow - Курсы "Школы Больших Данных" г. Москва
ฝัง
- เผยแพร่เมื่อ 14 ต.ค. 2024
- В данном видео показан пример простейшего ETL процесса на платформе Airflow. Для этого реализован DAG, ссылку на код можно видеть ниже. Данные подгружаются с одного источника метеоданных через API, выполняется преобразование данных в нужный формат и далее данные передаются на оператор Load для последующей загрузки в нужное хранилище.
Ссылка на код:
gist.github.co...
Более подробно вы можете познакомиться с нашими курсами по Apache AirFlow здесь
КУРС DATA PIPELINE НА APACHE AIRFLOW И APACHE HADOOP
www.bigdatasch...
КУРС DATA PIPELINE НА APACHE AIRFLOW И ARENADATA HADOOP
www.bigdatasch...
Еще видео по Apache Airflow:
Часть 1: Начало работы с apache airflow - • Начало работы с apache...
Часть 3: ETL на airflow c postgresql - • ETL на airflow c postg...
По вопросам обучения на курсах машинного обучения приглашаем в нашу «Школа Больших Данных»
Обращаться по телефону:
+7 (495) 41-41-121
+7 (995) 100-45-63
Чтобы не пропустить информацию о новых курсах, акциях и других событиях Школы Больших Данных, рекомендуем подписаться на нас в социальных сетях:
Телеграм-канал: t.me/BigDataSc...
Facebook: / bigdataschoolru
Вконтакте: bdschoo...
LinkedIn: / bigdataschoolru
Twitter: / bigdataschoolr
Подписывайтесь и будьте в курсе всех интересных новинок мира Big Data вместе со Школой больших данных - www.bigdatasch...
Очень полезное, спасибо. Особенно когда начинаешь только разбирать airflow. Разбор на примере отличный метод
Большое спасибо!
А у вас есть уроки, где аписано взаимодействие Spark и Airflow?
Здравствуйте, Благодарим за комментарий. Такого видео нет, есть тема для дальнейшей работы. Предложим преподавателям записать видео на эту тему.
@@ШколауправленияипродажКоммерса Лучшие!
Интересный момент, когда мы пушим данные по ключу в xcom, то получить мы их можем в другой таске по индексу [0]. Когда же в функции мы используем return json_data, которая также пушить в xcom, то в указании индекса нет нужды.По ключу данные попадают в xcom в виде списка[ ], внутри которого кортеж( ) и распаковываются в следующем таске по индексу, а во втором случае сразу в виде кортежа. В аргументах оператора также нужно указать provide_context=True.
Спасибо
Спасибо!
5:34 Вот интересно, вы получите ответ от API на 10 Гб, вы его тоже станете пихать в метаданные? Или всё-таки сложите данные в файл на файловую систему или даже в базу озера данных в том же таске, в котором получили?
Как правило по сети не ходят 10 гб… если это почему то так, то это архитектурная ошибка. Отвечая на ваш вопрос: большие объемы данных ходят через бд
вообще в принципе не рекомендуется использовать XCOM просто потому что он ограничен и мы занимаем боевую базу airflow.
Обмены, действительно, стоит делать через что-то стороннее. В книге видел примеры и через файлы и через базы данных.
Разумеется нужно контролировать что лезет из API. При таких объемах риск обырвалга порядком выше.
А в купе с рекомендацией ложить промежуточные данные во внешнюю стабильную среду есть более правильно, ибо упасть может все, а промежуточные данные всегда под рукой в папочке или бэкапятся еще куда-нить в облачко.)
{ "data": { "error": [ {"msg": "API key has been disabled." } ] }} Первый таск не выполнился хотя и пометился Success, и лучше бы response 200 обернуть эксепшаном) спасибо за то, что дали почувствовать себя занудой ))) В целом ломается понятно!
Вам нужен корректный токен
Топ
ti - кто он? что? Какой тип? Что вообще приходит в кваргс? разве так сложно все разложить по полочкам.
А то получається "возьмем что то не знаю что и выполним команду для чего то..."
Напишите док стринги со всем что прилетает или с основными параметрами.
ti: airflow.models.taskinstance.TaskInstance
Добрый день! Спасибо за рекомендации. Действительно, не к каждой переменной в видео указан ее тип. Формат видео не позволяет настолько подробно углубляться в содержание.
По-русски научитесь говорить. Ужос какой-то, а не речь. Апи, шедУлер, пушить, май - ну хоть бы тогда по-английски правильно говорил.
ужОс!
Самое нормальное обьяснение эйрфлоу на русском языке. Скиньте ссылки, если найдете лучше.
а как по вашему он должен говорить? вы видать не it или как? на будущие, так и выражаются разработчики. Никто не будет вам произносить как читается по английски, зачем?
Странный коммент..
Airflow относится к devops инструментам, там никто не будет ввам с англйским акцентам произносить, вы индусов не смотрели или как?
Сходите в индийский MS саппорт, там вам будет где позабавиться насчет акцента и прочих забавностей. )
@@yaroslavsolntsev9909 там люди говорят не на родном своем языке. А этот мальчик по документации оснащен русским языком с рождения
Broken DAG: [/usr/local/airflow/dags/weather_api.py] 'Variable KEY_API_WWO does not exist'
из за чего может быть эта ошибка в локалке
в конце видео объясняют как задать эту переменную
Эй, ребята, это не etl-средство, это оркестратор! Можно конечно извращаться как вы в этом видео, но зачем?
Смотрите плейлист дальше
В данном видео не утверждается однозначность применения airflow как etl инструмента. В следующих частях отражены другие способы использования airflow
@@dblmok_ Всё, конечно так, но такие видео смотрят начинающие. И проблема в том, что они начинают делать так, как видели в обучающем видео )
@@XXXXXX-vk1dm а как надо правильно? есть примеры видео ?
@@Sega4316 правильно, если этот окестратор запускает те же SSIS-пакеты или пакеты Информатики (ну, или пакеты других etl-средств)