Иван Канашов, Тинькофф. Удобное тестирование ETL процессов Apache Airflow

แชร์
ฝัง
  • เผยแพร่เมื่อ 14 ต.ค. 2024
  • Данные - это актив, они имеют реальную ценность, необходимо уметь ими управлять и защищать их.
    Мы в Тинькофф строим свою систему типа Data Catalog.
    Эта система собирает в себе все метаданные о таблицах, отчетах и бог знает чём еще в рамках предприятия и предоставляет инструменты для простого управления метаданными и самостоятельного поиска по ним.
    Я расскажу о том, как мы наполняем наш Data Catalog метаданными из более чем 25 источников, используя Apache Airflow.
    Как мы придумали подход, а затем и создали небольшой фреймворк, позволяющий нам:
    обеспечить 100-процентное покрытие интеграционными end-to-end тестами все наши ETL процессы (70 ETL процессов, более 940 самых разнообразных шагов);
    обеспечить автоматическое создание тестовых данных для каждого шага, каждого нашего процесса;
    обеспечить удобный процесс ревью, а также сильно облегчить жизнь разработчикам при создании или модификации ETL процессов.
    Дополнительно расскажу о том, как наш тестовый Pipeline в Gitlab CI сначала увеличился до 40 минут, а потом нам удалось его сократить до 10 минут, и мы знаем, как сделать его еще быстрее.
    Доклад рассчитан на разработчиков, дата инженеров и любых специалистов, связанных с разработкой и тестированием ETL процессов.
    Слушатели смогут понять, как можно организовать удобный и понятный процесс тестирования, разработки и ревью ETL процессов, обеспечить 100-процентное покрытие таких процессов тестами, а также автоматически генерировать тестовые данные для каждого шага ETL процесса.

ความคิดเห็น • 1

  • @GrabsOrion
    @GrabsOrion ปีที่แล้ว

    Крутой доклад