ETL на airflow - Курсы "Школы Больших Данных" г. Москва

แชร์
ฝัง
  • เผยแพร่เมื่อ 14 ต.ค. 2024
  • В данном видео показан пример простейшего ETL процесса на платформе Airflow. Для этого реализован DAG, ссылку на код можно видеть ниже. Данные подгружаются с одного источника метеоданных через API, выполняется преобразование данных в нужный формат и далее данные передаются на оператор Load для последующей загрузки в нужное хранилище.
    Ссылка на код:
    gist.github.co...
    Более подробно вы можете познакомиться с нашими курсами по Apache AirFlow здесь
    КУРС DATA PIPELINE НА APACHE AIRFLOW И APACHE HADOOP
    www.bigdatasch...
    КУРС DATA PIPELINE НА APACHE AIRFLOW И ARENADATA HADOOP
    www.bigdatasch...
    Еще видео по Apache Airflow:
    Часть 1: Начало работы с apache airflow - • Начало работы с apache...
    Часть 3: ETL на airflow c postgresql - • ETL на airflow c postg...
    По вопросам обучения на курсах машинного обучения приглашаем в нашу «Школа Больших Данных»
    Обращаться по телефону:
    +7 (495) 41-41-121
    +7 (995) 100-45-63
    Чтобы не пропустить информацию о новых курсах, акциях и других событиях Школы Больших Данных, рекомендуем подписаться на нас в социальных сетях:
    Телеграм-канал: t.me/BigDataSc...
    Facebook: / bigdataschoolru
    Вконтакте: bdschoo...
    LinkedIn: / bigdataschoolru
    Twitter: / bigdataschoolr
    Подписывайтесь и будьте в курсе всех интересных новинок мира Big Data вместе со Школой больших данных - www.bigdatasch...

ความคิดเห็น • 33

  • @alexnevidimkins4730
    @alexnevidimkins4730 2 วันที่ผ่านมา

    Очень полезное, спасибо. Особенно когда начинаешь только разбирать airflow. Разбор на примере отличный метод

  • @ДмитрийКоролев-ч8ь
    @ДмитрийКоролев-ч8ь ปีที่แล้ว +7

    Большое спасибо!
    А у вас есть уроки, где аписано взаимодействие Spark и Airflow?

    • @ШколауправленияипродажКоммерса
      @ШколауправленияипродажКоммерса ปีที่แล้ว +5

      Здравствуйте, Благодарим за комментарий. Такого видео нет, есть тема для дальнейшей работы. Предложим преподавателям записать видео на эту тему.

    • @ДмитрийКоролев-ч8ь
      @ДмитрийКоролев-ч8ь ปีที่แล้ว

      @@ШколауправленияипродажКоммерса Лучшие!

  • @КонстантинКолоколов-ъ8г
    @КонстантинКолоколов-ъ8г 2 ปีที่แล้ว +6

    Интересный момент, когда мы пушим данные по ключу в xcom, то получить мы их можем в другой таске по индексу [0]. Когда же в функции мы используем return json_data, которая также пушить в xcom, то в указании индекса нет нужды.По ключу данные попадают в xcom в виде списка[ ], внутри которого кортеж( ) и распаковываются в следующем таске по индексу, а во втором случае сразу в виде кортежа. В аргументах оператора также нужно указать provide_context=True.

  • @dmitrylemeshenko9642
    @dmitrylemeshenko9642 ปีที่แล้ว +1

    Спасибо

  • @namefamily3279
    @namefamily3279 3 ปีที่แล้ว +1

    Спасибо!

  • @basil0607
    @basil0607 2 ปีที่แล้ว +2

    5:34 Вот интересно, вы получите ответ от API на 10 Гб, вы его тоже станете пихать в метаданные? Или всё-таки сложите данные в файл на файловую систему или даже в базу озера данных в том же таске, в котором получили?

    • @dblmok_
      @dblmok_ 2 ปีที่แล้ว +3

      Как правило по сети не ходят 10 гб… если это почему то так, то это архитектурная ошибка. Отвечая на ваш вопрос: большие объемы данных ходят через бд

    • @letronas
      @letronas ปีที่แล้ว +1

      вообще в принципе не рекомендуется использовать XCOM просто потому что он ограничен и мы занимаем боевую базу airflow.
      Обмены, действительно, стоит делать через что-то стороннее. В книге видел примеры и через файлы и через базы данных.

    • @yaroslavsolntsev9909
      @yaroslavsolntsev9909 8 หลายเดือนก่อน

      Разумеется нужно контролировать что лезет из API. При таких объемах риск обырвалга порядком выше.
      А в купе с рекомендацией ложить промежуточные данные во внешнюю стабильную среду есть более правильно, ибо упасть может все, а промежуточные данные всегда под рукой в папочке или бэкапятся еще куда-нить в облачко.)

  • @hhdushaa
    @hhdushaa 2 ปีที่แล้ว +1

    { "data": { "error": [ {"msg": "API key has been disabled." } ] }} Первый таск не выполнился хотя и пометился Success, и лучше бы response 200 обернуть эксепшаном) спасибо за то, что дали почувствовать себя занудой ))) В целом ломается понятно!

    • @dblmok_
      @dblmok_ 2 ปีที่แล้ว +2

      Вам нужен корректный токен

  • @romankonovalov2588
    @romankonovalov2588 5 หลายเดือนก่อน

    Топ

  • @PizdaRusni2023
    @PizdaRusni2023 3 ปีที่แล้ว +7

    ti - кто он? что? Какой тип? Что вообще приходит в кваргс? разве так сложно все разложить по полочкам.
    А то получається "возьмем что то не знаю что и выполним команду для чего то..."
    Напишите док стринги со всем что прилетает или с основными параметрами.

    • @PizdaRusni2023
      @PizdaRusni2023 3 ปีที่แล้ว +1

      ti: airflow.models.taskinstance.TaskInstance

    • @dblmok_
      @dblmok_ 3 ปีที่แล้ว +6

      Добрый день! Спасибо за рекомендации. Действительно, не к каждой переменной в видео указан ее тип. Формат видео не позволяет настолько подробно углубляться в содержание.

  • @iexploiter
    @iexploiter 3 ปีที่แล้ว +2

    По-русски научитесь говорить. Ужос какой-то, а не речь. Апи, шедУлер, пушить, май - ну хоть бы тогда по-английски правильно говорил.

    • @CrazyHandMaker
      @CrazyHandMaker 3 ปีที่แล้ว +1

      ужОс!

    • @Frezer911
      @Frezer911 2 ปีที่แล้ว +9

      Самое нормальное обьяснение эйрфлоу на русском языке. Скиньте ссылки, если найдете лучше.

    • @ИльяШапорто
      @ИльяШапорто 2 ปีที่แล้ว +3

      а как по вашему он должен говорить? вы видать не it или как? на будущие, так и выражаются разработчики. Никто не будет вам произносить как читается по английски, зачем?
      Странный коммент..
      Airflow относится к devops инструментам, там никто не будет ввам с англйским акцентам произносить, вы индусов не смотрели или как?

    • @yaroslavsolntsev9909
      @yaroslavsolntsev9909 8 หลายเดือนก่อน

      Сходите в индийский MS саппорт, там вам будет где позабавиться насчет акцента и прочих забавностей. )

    • @iexploiter
      @iexploiter 8 หลายเดือนก่อน

      @@yaroslavsolntsev9909 там люди говорят не на родном своем языке. А этот мальчик по документации оснащен русским языком с рождения

  • @NurgisaBazarbaev
    @NurgisaBazarbaev ปีที่แล้ว

    Broken DAG: [/usr/local/airflow/dags/weather_api.py] 'Variable KEY_API_WWO does not exist'
    из за чего может быть эта ошибка в локалке

  • @XXXXXX-vk1dm
    @XXXXXX-vk1dm 3 ปีที่แล้ว +4

    Эй, ребята, это не etl-средство, это оркестратор! Можно конечно извращаться как вы в этом видео, но зачем?

    • @dblmok_
      @dblmok_ 3 ปีที่แล้ว

      Смотрите плейлист дальше

    • @dblmok_
      @dblmok_ 3 ปีที่แล้ว +1

      В данном видео не утверждается однозначность применения airflow как etl инструмента. В следующих частях отражены другие способы использования airflow

    • @XXXXXX-vk1dm
      @XXXXXX-vk1dm 3 ปีที่แล้ว

      @@dblmok_ Всё, конечно так, но такие видео смотрят начинающие. И проблема в том, что они начинают делать так, как видели в обучающем видео )

    • @Sega4316
      @Sega4316 3 ปีที่แล้ว +1

      @@XXXXXX-vk1dm а как надо правильно? есть примеры видео ?

    • @XXXXXX-vk1dm
      @XXXXXX-vk1dm 3 ปีที่แล้ว

      @@Sega4316 правильно, если этот окестратор запускает те же SSIS-пакеты или пакеты Информатики (ну, или пакеты других etl-средств)