ทำ Data Pipeline แบบง่ายๆ ด้วย เครื่องมือสุดฮิตอย่าง Apache Airflow

แชร์
ฝัง
  • เผยแพร่เมื่อ 4 ก.ค. 2020
  • Apache Airflow หรือที่เราเรียกกันสั้นๆ ว่า Airflow นั่นเอง เครื่องมือตัวนี้ถูกพัฒนาโดย Airbnb ตั้งแต่ปี 2014 ให้เป็น Platform ที่เราสามารถเขียนโค้ดเพื่อ Author ตัว Workflow (หรือ Pipeline) ของเรา และยังสามารถ Schedule และ Monitor ได้อีกด้วย
    ในคลิปวีดีโอสั้นๆ นี้ เราจะมาดูวิธีการสร้าง Data Pipeline แบบง่ายๆ โดยใช้ Airflow เพื่อดึงข้อมูล COVID-19 ในแต่ละวันมาเก็บในฐานข้อมูลของเราเอง
    สามารถไปส่องโค้ดได้ที่ github.com/dataength/automati...

ความคิดเห็น • 22

  • @atitawatpol-in3816
    @atitawatpol-in3816 3 ปีที่แล้ว +2

    ขอบคุณมากครับ หาศึกษายากมาก

  • @mosrocker6407
    @mosrocker6407 3 ปีที่แล้ว +2

    ขอบคุณ​สำหรับ Tutorials เจ๋งๆครับ เป็นประโยชน์​มาก สร้าง Content​s ต่อไปเรื่อยๆนะครับ เป็นกำลังใจให้

  • @l.mrteera
    @l.mrteera 2 ปีที่แล้ว +1

    ขอบคุณครับ 🤩

  • @farmeagle
    @farmeagle 9 หลายเดือนก่อน

    สอนดีมากครับ

  • @SiraSam
    @SiraSam 6 หลายเดือนก่อน

    ขอบคุณครับ

  • @nuttaponkongkitimanon3742
    @nuttaponkongkitimanon3742 4 หลายเดือนก่อน

    หา Content ไปมาเจอพี่กาน เฉย

  • @chawinchokchaimongkolkij9615
    @chawinchokchaimongkolkij9615 3 ปีที่แล้ว

    เราจะรัน สคิปขึ้น localhost ยังไงหรอครับ

    • @DataEngineerCafe
      @DataEngineerCafe  2 ปีที่แล้ว

      ลองดูตามคลิปนี้ได้เลยครับผม th-cam.com/video/MjTxN9smK3c/w-d-xo.html

  • @yatimachooruang2204
    @yatimachooruang2204 ปีที่แล้ว

    จำเป็นต้องรับมาจากapi เท่านั้นหรอคะ

    • @DataEngineerCafe
      @DataEngineerCafe  ปีที่แล้ว

      ที่ source systems สามารถเป็นอย่างอื่นนอกจาก API ได้ครับ เช่น database, SFTP หรือ queue ครับผม ทั้งนี้ขึ้นอยู่กับว่าระบบที่เราจะดึงข้อมูล เค้ามีช่องทางอะไรให้เราดึงข้อมูลได้บ้าง

  • @SlytezFair
    @SlytezFair 3 หลายเดือนก่อน

    คุณกานต์ครับ ช่วยสอนวิธีการเชื่อมต่อ database sql บน airflow ผ่าน docker หน่อยครับ งงมากครับ

    • @DataEngineerCafe
      @DataEngineerCafe  2 หลายเดือนก่อน

      ได้ครับผม SQL นี่ยี่ห้อไหนดีครับ MySQL หรือว่า PostgreSQL เอ่ย?

    • @SlytezFair
      @SlytezFair 2 หลายเดือนก่อน +1

      @@DataEngineerCafe ขอ MySQL ล่ะกันครับ

    • @DataEngineerCafe
      @DataEngineerCafe  2 หลายเดือนก่อน

      ผมลองอัดคลิปไว้ที่ th-cam.com/video/phW5potdcFY/w-d-xo.html ไม่แน่ใจตอบโจทย์หรือเปล่า ถ้ายังสามารถมาพูดคุยเพิ่มเติมกันได้ที่ discuss.dataengineercafe.io นะครับบบ ^^

  • @ittichocesornmeethong3643
    @ittichocesornmeethong3643 ปีที่แล้ว

    จาก 5:53 ทำอย่างไรให้ไฟล์ airflow.cfg มาปรากฏใน idle ที่เราเลือกใช้ครับ ผมลองค้นหาในเครื่องแล้ว (ติดตั้งตาม th-cam.com/video/MjTxN9smK3c/w-d-xo.html) ไม่พบไฟล์ airflow.cfg ครับ

    • @DataEngineerCafe
      @DataEngineerCafe  ปีที่แล้ว +1

      ลองดูตอนที่เราสั่ง airflow db init ครับ มันจะมี path ขึ้นมา ที่นาทีที่ 8 วินาทีที่ 17 th-cam.com/video/MjTxN9smK3c/w-d-xo.html
      ไฟล์ airflow.cfg โดย default จะอยู่ที่ตรง path นั้นครับผม ถ้ายังหาไม่เจอ สามารถไปสร้างโพสต์ที่ discuss.dataengineercafe.io/ แล้วแปะ screenshot มาเพิ่มเติมได้ครับ ผมช่วยดูเพิ่มเติมให้ ^^

  • @user-rp7me7ly7d
    @user-rp7me7ly7d 2 ปีที่แล้ว

    ฟรีไมครับ

  • @norasitkusonpreedee1637
    @norasitkusonpreedee1637 2 ปีที่แล้ว +1

    รบกวนขอคำอธิบายเพิ่มตรงบรรทัดนี้ครับ
    mysql_hook = MySqlHook(mysql_conn_id='covid19')
    สงสัยว่า 'covid19' ตรงนี้หมายถึงอะไร อ้างอิงมาจากตรงไหน
    ขอบคุณมากครับ

    • @DataEngineerCafe
      @DataEngineerCafe  2 ปีที่แล้ว +2

      ได้ครับผม ตรงส่วนนี้คือ Airflow connection ครับ airflow.apache.org/docs/apache-airflow/stable/howto/connection.html ในวีดีโอพอดี ผมกรอกข้อมูล connection ของ MySQL ไว้เรียบร้อยแล้ว แล้วก็ตั้งชื่อ connection ID ว่า "covid19" เพื่อเอามาใช้ใน DAG ต่อครับผม ^^

    • @DataEngineerCafe
      @DataEngineerCafe  2 ปีที่แล้ว +1

      ตรงนี้ทำให้เราไม่ต้องเอา credential มาใส่ในโค้ดเลย เราอ้างอิงจากชื่อ connection ID แทน ว่าเราอยากจะต่อกับ data source ตัวไหน

    • @norasitkusonpreedee1637
      @norasitkusonpreedee1637 2 ปีที่แล้ว

      @@DataEngineerCafe ขอบคุณมากครับ 👏👏👏