ทำ Data Pipeline แบบง่ายๆ ด้วย เครื่องมือสุดฮิตอย่าง Apache Airflow
ฝัง
- เผยแพร่เมื่อ 4 ก.ค. 2020
- Apache Airflow หรือที่เราเรียกกันสั้นๆ ว่า Airflow นั่นเอง เครื่องมือตัวนี้ถูกพัฒนาโดย Airbnb ตั้งแต่ปี 2014 ให้เป็น Platform ที่เราสามารถเขียนโค้ดเพื่อ Author ตัว Workflow (หรือ Pipeline) ของเรา และยังสามารถ Schedule และ Monitor ได้อีกด้วย
ในคลิปวีดีโอสั้นๆ นี้ เราจะมาดูวิธีการสร้าง Data Pipeline แบบง่ายๆ โดยใช้ Airflow เพื่อดึงข้อมูล COVID-19 ในแต่ละวันมาเก็บในฐานข้อมูลของเราเอง
สามารถไปส่องโค้ดได้ที่ github.com/dataength/automati...
ขอบคุณมากครับ หาศึกษายากมาก
ขอบคุณสำหรับ Tutorials เจ๋งๆครับ เป็นประโยชน์มาก สร้าง Contents ต่อไปเรื่อยๆนะครับ เป็นกำลังใจให้
ขอบคุณครับ 🤩
สอนดีมากครับ
ขอบคุณครับ
หา Content ไปมาเจอพี่กาน เฉย
เราจะรัน สคิปขึ้น localhost ยังไงหรอครับ
ลองดูตามคลิปนี้ได้เลยครับผม th-cam.com/video/MjTxN9smK3c/w-d-xo.html
จำเป็นต้องรับมาจากapi เท่านั้นหรอคะ
ที่ source systems สามารถเป็นอย่างอื่นนอกจาก API ได้ครับ เช่น database, SFTP หรือ queue ครับผม ทั้งนี้ขึ้นอยู่กับว่าระบบที่เราจะดึงข้อมูล เค้ามีช่องทางอะไรให้เราดึงข้อมูลได้บ้าง
คุณกานต์ครับ ช่วยสอนวิธีการเชื่อมต่อ database sql บน airflow ผ่าน docker หน่อยครับ งงมากครับ
ได้ครับผม SQL นี่ยี่ห้อไหนดีครับ MySQL หรือว่า PostgreSQL เอ่ย?
@@DataEngineerCafe ขอ MySQL ล่ะกันครับ
ผมลองอัดคลิปไว้ที่ th-cam.com/video/phW5potdcFY/w-d-xo.html ไม่แน่ใจตอบโจทย์หรือเปล่า ถ้ายังสามารถมาพูดคุยเพิ่มเติมกันได้ที่ discuss.dataengineercafe.io นะครับบบ ^^
จาก 5:53 ทำอย่างไรให้ไฟล์ airflow.cfg มาปรากฏใน idle ที่เราเลือกใช้ครับ ผมลองค้นหาในเครื่องแล้ว (ติดตั้งตาม th-cam.com/video/MjTxN9smK3c/w-d-xo.html) ไม่พบไฟล์ airflow.cfg ครับ
ลองดูตอนที่เราสั่ง airflow db init ครับ มันจะมี path ขึ้นมา ที่นาทีที่ 8 วินาทีที่ 17 th-cam.com/video/MjTxN9smK3c/w-d-xo.html
ไฟล์ airflow.cfg โดย default จะอยู่ที่ตรง path นั้นครับผม ถ้ายังหาไม่เจอ สามารถไปสร้างโพสต์ที่ discuss.dataengineercafe.io/ แล้วแปะ screenshot มาเพิ่มเติมได้ครับ ผมช่วยดูเพิ่มเติมให้ ^^
ฟรีไมครับ
ฟรีครับ :)
รบกวนขอคำอธิบายเพิ่มตรงบรรทัดนี้ครับ
mysql_hook = MySqlHook(mysql_conn_id='covid19')
สงสัยว่า 'covid19' ตรงนี้หมายถึงอะไร อ้างอิงมาจากตรงไหน
ขอบคุณมากครับ
ได้ครับผม ตรงส่วนนี้คือ Airflow connection ครับ airflow.apache.org/docs/apache-airflow/stable/howto/connection.html ในวีดีโอพอดี ผมกรอกข้อมูล connection ของ MySQL ไว้เรียบร้อยแล้ว แล้วก็ตั้งชื่อ connection ID ว่า "covid19" เพื่อเอามาใช้ใน DAG ต่อครับผม ^^
ตรงนี้ทำให้เราไม่ต้องเอา credential มาใส่ในโค้ดเลย เราอ้างอิงจากชื่อ connection ID แทน ว่าเราอยากจะต่อกับ data source ตัวไหน
@@DataEngineerCafe ขอบคุณมากครับ 👏👏👏