Giải thích Big Data theo ngôn ngữ loài người bởi Senior Data Engineer

Data Guy Story

มุมมอง 53 238

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 14 ต.ค. 2024
Chào các bạn, có nhiều bạn đang muốn tìm hiểu về Big Data nhưng những tài liệu trên mạng nó nặng về học thuật quá. Mình làm video này giải thích về Big Data theo cách đơn giản nhất để những bạn nào không phải dân IT cũng có thể hiểu được.
Fanpage: dataguy...
About me: www.calvinio.c...
Chúc mọi người xem video vui vẻ.
🐻 a b o u t 🐻
Mình tốt nghiệp thạc sĩ tại đại học quốc gia Singapore chuyên ngành Data Science (Khoa học dữ liệu). Mình từng làm Data Scientist được khoảng 2.5 năm tại một tập đoàn tự động hóa lớn nhất nhì thế giới. Hiện tại mình đang làm Senior Data Engineer ở Grab Singapore với 5 năm kinh nghiệm. Hy vọng những video của mình sẽ giúp đỡ các bạn phần nào đó bước trên con đường Data này.
Credits:
Sunshine (version 2) by Kevin MacLeod được under license Creative Commons Attribution (creativecommon...)
Source: incompetech.co...
Artist: Kevin MacLeod (incompetech.com/)
#bigdata #dataengineer #bigdatalagi

ความคิดเห็น • 78

@cungthanhlaptrinh 8 หลายเดือนก่อน ⁺¹
Bigdata
Data đưa ra dữ liệu giúp cho việc đưa ra
những thông tin và quyết định tốt nhất
Nhưng khi một hệ thống bình thường thì nó
sẽ không thể lưu trữ dữ liệu nhiều hơn được
và khả năng truy xuất chậm
3 tính chất bigdata
+ Volume : độ lớn dữ liệu
+ Velocity : tốc độ
+ variety : đa dạng data
Công nghệ xây dựng : HADOOP : các dạng file csv txt png , paraquet
Khả năng phân tấn , từ master đưa về các node nhỏ , sau đó phân tách
để sử lý , sau đó trả về master cuối cùng trả về người dùng
Vai trò :Data engineer lấy dữ liệu từ nhiều nguồn khác nhau và bỏ vào HDFS
Để load dữ liệu tốt người ta sử dụng SPARK
@theminimalist4859 4 ปีที่แล้ว ⁺⁸
Hay và súc tích quá anh. lúc nào a làm sâu hơn về hadoop, hdfs, NiFi, airflow đi ah. Muốn nghe anh chia sẻ kinh nghiệm và so sánh các bộ tool này.
@entertainmentufm3559 3 ปีที่แล้ว ⁺⁶
ước đc làm editor cho anh cảnh, và đc anh chỉ thêm về học phân tích ạ!
@tungvuthanh4086 2 ปีที่แล้ว
Cám ơn anh, vô tình search ra video của anh. Xem dễ hiểu thực sự. E k phải dân lập trình mà còn dễ hiểu. A ra thêm nhìu video nhé ạ 😍😍
@luonginh3326 2 ปีที่แล้ว ⁺¹
Cảm ơn anh. Hy vọng anh ra thêm những video ntn nữa
@duyleminh7033 2 ปีที่แล้ว ⁺¹
nếu được anh setup 1 buổi làm việc thực tế + làm những gì cho anh em tham khảo nha anh
@thaoquach1377 ปีที่แล้ว
Thank you for your straighforward and informative videos. I hope you can produce many videos like this
@NatureRulesProject 4 ปีที่แล้ว ⁺²
E cũng từng learn để build hệ thống như a nói khi thực tập backend cho e-company kia, đúng là giống hệt tất cả
@DataGuyStory 4 ปีที่แล้ว ⁺³
Đấy có người confirm rồi này. Ông nào bảo tui chém gió sai thử xem nào =]]
@vu1m85 4 ปีที่แล้ว
og ơi có role backend og thực tập nó có giống với data engineer ko ? Tôi muốn kiếm job DE fresher mà hog có lun trong khi Backend đã có 5 offers luôn r :(
@HangNguyen-dh6uz 3 ปีที่แล้ว ⁺¹
Rất hữu ích và dễ hiểu ạ. Cảm ơn anh rất nhiều và mong chờ những video sau của anh!
@NhanNguyen-ce8wp 3 ปีที่แล้ว ⁺¹
Cảm ơn anh về chuỗi video ạ. Em là sv năm 2 và cũng đang theo lộ trình học hướng này ạ. ✌️
@tranhoang7131 10 หลายเดือนก่อน
hiện tại anh có theo big data ko ạ
@sangit_8x ปีที่แล้ว
ngắn gọn và mạnh lạc, dễ hiểu
@ngocanhleu8168 3 ปีที่แล้ว ⁺²
anh giải thích dễ hiểu quá ạ, cám ơn anh
@ucnguyenminh7959 10 หลายเดือนก่อน
anh có vid nói kỹ hơn về hadoop, cách tải và thực hành chạy một chương trình đơn giản bằng hadoop không ạ.
@hanhj2654 3 ปีที่แล้ว
Hay quá anh ơi. Thả tim cho anh
@tenphenhopham5088 3 ปีที่แล้ว ⁺¹
hay quá anh ơi
@nguyenthanhlong7745 ปีที่แล้ว
Video rất bổ ích & dễ hiểu, tks anh nhé
@anhle6206 5 หลายเดือนก่อน
Cảm ơn anh, vd rất dễ hiểu ạ
@TheBrownBox 4 ปีที่แล้ว
Chia sẻ rất trực quan và dễ hiểu.
Cảm ơn những chia sẻ của anh!
@kientrantrung7071 4 ปีที่แล้ว
Cần lắm những quả video chất lượng thế này. Cảm ơn anh rất nhiều :V
@nguyendiep848 4 ปีที่แล้ว
Cảm ơn anh, video CỰC KỲ dễ hiểu ạ, Hồi xưa đọc mấy cái trên mạng toàn nói gì đâu đâu @@
@04.thanhatphan75 4 ปีที่แล้ว
Em vừa đi học về thấy anh đăng video là xem ngay ♥️, em hóng bài sau nha anh 😂
@nguyenxuanngoc5126 3 ปีที่แล้ว ⁺¹
hay quá anh ơi , mong anh hướng dẫn sâu hơn về big data ạ
@thutrang638 8 หลายเดือนก่อน
rất dễ hiểu ạ, cảm ơn bạn nhiều
@phuongnamphan9368 3 ปีที่แล้ว
Hay quá anh ơi, em cũng đang khởi nghiệp 🔥⛳🤩
@lehoangvu5703 10 หลายเดือนก่อน
Hay lắm bạn ơi
@hoduytruong615 ปีที่แล้ว
súc tích dễ hiểu nha a
@minhgiangoan2437 3 ปีที่แล้ว
Móa đang học Big Data trên lớp online Team của thầy xong thì video này hiện lên :)))) có khi nào điềm báo mình sẽ theo nghề Data Engineer không ta :)))
@giangvuong9179 3 ปีที่แล้ว
Bài giải thích hay quá ạ, cảm ơn a!
@PhamThiXuanQuyN 3 ปีที่แล้ว ⁺¹
Mn ơi cho e hỏi để bắt đầu về mảng Data thì nên học SQL hay python trc ạ?
@tatvuong09 3 ปีที่แล้ว
Anh nói hay và dễ hiểu quá ạ
@tranbi970 3 ปีที่แล้ว
cảm ơn anh nhé, video rất bổ ích!
@truongvien1172 3 ปีที่แล้ว
Hay quá anh ơi!!
@trantrinhquocviet8420 3 ปีที่แล้ว
Hệ thống cơ bản nhất cho các công ty nhỏ là access
@QuanNguyen-wf6sd 4 ปีที่แล้ว ⁺¹
cho mình hỏi OLTP có thể dùng big data được không ạ? Vì bạn có đề cập Big Data dùng để lưu dũ liệu để phân tích.
@DataGuyStory 4 ปีที่แล้ว ⁺¹
Nếu bạn nói OLAP thì đúng còn OLTP là online transaction process nó đâu có dùng cho Analytics đâu.
Nói thêm là trong hệ thống Big Data Hadoop thì HDFS dùng để lưu data dạng text. Sau đó nếu bạn muốn query bằng SQL thì phải xây dựng hive metastore map với HDFS. Apache Hive chính là OLAP engine đó bạn
@nguyenduyta7136 3 ปีที่แล้ว
Chào bạn, mình muốn bắt đầu với BI thì bắt đầu thế nào bạn. Cám ơn bạn
@xuanattran3778 2 ปีที่แล้ว
quá hay anh ạ !!!
@duybachsnguyen1443 11 หลายเดือนก่อน
hay quá cảm ơn anh nh nhé
@vawnvuxofficial114 4 ปีที่แล้ว
Chờ lâu lắm gòi :)
@tritranofficial9377 2 ปีที่แล้ว
hic sao bây h mới biết đến anh :((
@dovanpho 4 ปีที่แล้ว
nội dung bổ ích, cảm ơn bạn
@Scorpisces1911 2 ปีที่แล้ว
Bái bai và hẹn gặp lại hehe
@Pblaze12 4 ปีที่แล้ว
Bạn có thể giải thích cho mình chính xác cái gọi là "in-memory" processing được không, in-memory processing của Spark so với MapReduce thuần. Mình thấy khái niệm này khá được nói rất nhiều nhưng thực sự lại rất mơ hồ.
Mình có giải thích khái niệm này của riêng mình nhưng mình muốn biết bên ngoài người ta hiểu cái này chính xác là như thế nào. Team data của mình khá đóng cửa với thế giới bên ngoài do nhiều điều kiện khác nhau nên mình rất muốn giao lưu thêm với bên ngoài để tăng cường hiểu biết. Mà ko biết tìm ở đâu.
À mà chỗ giải thích về HDFS ấy, mình nghe trong video "sau đó kết quả được trả về master" thì cái mà mình hiểu là "data được lưu trữ phân tán ra node, khi có request thì data phải 'COLLECT' VỀ MASTER rồi mới về requester". Điều này có đúng ko nhỉ? Mình thì mình nghĩ master nó chỉ route đến node chứa data thôi rồi đọc trực tiếp từ máy con chứ ko collect lên master đâu, thắt cổ chai ở master vậy thì còn gì là distributed system nữa.
@DataGuyStory 4 ปีที่แล้ว ⁺¹
Cám ơn bạn feedback nha.
1. Ở phần HDFS, bạn hiểu đúng rồi á. Master node (namenode) chỉ chứa Metadata, khi có request thì sẽ xử lý ở datanode và "kết quả" (ở đây là metadata) trả về cho Namenode rồi về requester. Data KHÔNG collect lên NameNode . Bởi vậy NameNode thường nhỏ hơn Datanode rất là nhiều. Trong clip mình cũng đề cập là request sẽ được xử lý là Datanode mà không nói rõ kết quả là gì, ngắn gọn vậy cho mọi người dễ hiểu chứ đi sâu details quá thì mấy bạn non-IT rối chắc =]].
2. Nếu bạn đang nói Map Reduce thuần (không phải Apache Ignite) thì MR sau mỗi khi map và reduce function hoàn thành nó sẽ lưu data ngược lại vào hard disk, bởi vậy thì nó phụ thuộc rất nhiều vào I/O của hard disk hơn là Memory. Mỗi lần chạy là đọc và ghi liên tục.
Còn Spark thì toàn bộ quá trình đều nằm trên Memory. Data được store ở local sau đó load vào RDD, tùy theo RDD persistence store trường hợp này là Memory mà nó phân tán ở các node khác nhau trong cluster.
Nói thêm về khi Spark chạy, Spark Driver sẽ chạy sparkContext đầu tiên, SparkContext chứa 2 components là DAG Scheduler và Task Scheduler. Bên trong DAG Scheduler job sẽ chia ra thành nhiều stages khác nhau, mỗi stage gồm Task, nó submit task và Task Scheduler. Task Scheduler send task đến Cluster Manager (YARN, MESOS, K8s). Cluster Manager đưa đến Executors để chạy, kết quả trả ngược về Spark Driver rồi đến endusers.
Không biết mình giải thích có khó hiểu lắm không nữa
@Pblaze12 4 ปีที่แล้ว
@@DataGuyStory Đây đúng là cái giải thích về "cái chính xác gọi là in-memory processing của Spark" mà mình hiểu.
Mình đọc rất nhiều các hướng dẫn trên mạng, nó đề cập đến in-memory processing nhưng khi xem cụ thể đều là nói về lệnh .cache() trên ram, thực ra vẫn đúng, nhưng k nói gì về cái phương pháp nó xử lý nó khác với MapReduce. MapReduce ví dụ 1 phép tính kiểu "Count, group dataset by category, sau đó lại group by tiếp số category mà count là số chẵn" chẳng hạn, nếu mà là MapReduce thì sẽ có 2 job, job 1 là Count GroupBy Category, Job thứ 2 là Count GroupBy dựa trên count chẵn lẻ của kết quả job thứ 1. Và job 1 xong thì phải write xuống hark disk mà chính xác là HDFS (cực đắt, do còn phải duplicate cho fault tolerence), rồi job 2 lại đọc lên từ HDFS rồi mới reduce được.
Còn Spark thì khi group by count xong là nó project cái cột count để làm tiếp luôn, ko có write xuống disk rồi đọc lên lại, miễn là ko bị kích shuffle (nhảy stage), thì data sẽ được xử lý hoàn toàn trên RAM, các lệnh nếu ko cần shuffle (do toàn các lệnh kiểu calculate value, filter value, hoặc là dù join-sort-agg nhưng do data đang có partition phù hợp nên ko cần shuffle) được chain với nhau và làm gọn trong 1 stage và làm trên RAM luôn. Đây là in-memory processing.
Ý mình là vậy chắc là giống với các giải thích của bạn nhỉ. À mà mình nhớ đọc là shuffle là phải write xuống đĩa, rồi các node khác vào đọc (chứ ko phải là chủ động gửi đi), mình hiểu đúng ko nhỉ
À mà cho mình hỏi, cái vụ "kết quả trả ngược về Spark Driver", ý là báo cho driver biết là job đã xong thôi, hoặc là mấy cái lệnh kểu .show(), display() chứ nếu mà là write data thì vẫn là worker write ấy chứ nhỉ.
Hôm nay tự nhiên tìm được kênh, mình đã xem hết video của bạn, rất là tốt cho người mới nhưng nếu được có thể bạn chia sẻ chuyên sâu hơn về cả architecture và modeling thì sẽ còn hay hơn nữa, nhất là với những người đang hơi bị đóng cửa với thế giới giống mình. :v
@DataGuyStory 4 ปีที่แล้ว
@@Pblaze12 Giờ Map Reduce ít ai xài do nó khá expensive với data processing không tốt bằng Spark. Nhưng nếu mà chỉ process data đơn giản thì MR trên hệ thống Hadoop có sẵn lại rẻ và là quick and effective solution nhất thay vì có một cái Spark cluster riêng. Giờ nó có Apache Ignite (Map Reduce on Memory đó bạn) thay vì mỗi lần map and reduce phải write xuống disk thì nó I/O vào Ram. Xu hướng giờ mấy công ty trừ bank toàn lên cloud nên người ta từ Spark đọc trực tiếp vào S3 / Azure Blob / Google Storage luôn nên Spark phổ biến hơn MR.
Cái vụ trả ngược của spark là nó chia ra làm 2 trường hợp á. Nếu mà task result nhỏ ví dự như tính số Pi thì nó trả về trực tiếp thông qua task status luôn. Còn nếu mà lớn thì nó sẽ write xuống disk xong gửi BlockId về driver. Driver thông qua BlockManager để đọc results. Trong configuration của Spark nó có cái này để control á "spark.driver.maxResultSize". Lâu lâu mình vẫn phải set spark driver memory là vậy đó bạn.
Mình cũng thích làm chi tiết hơn về architecture và data pipeline mà đa phần anh em Data Engineer giờ đọc Medium không à. Nên giờ làm cơ bản trước cho mấy bạn dễ tiếp cận rồi nâng cao sau :))
@trantrinhquocviet8420 3 ปีที่แล้ว
Hay quá anh
@duongsung3395 4 ปีที่แล้ว ⁺¹
Để trở thành data engineer có nhất thiết học thạc sĩ không ạ?
@DataGuyStory 4 ปีที่แล้ว
Không nhé, thành data scientist mới cần thạc sĩ nha
@duongsung3395 4 ปีที่แล้ว
@@DataGuyStory cảm ơn anh
@manhnguyenphuc9 4 ปีที่แล้ว
video rất dễ hiểu anh ạ :D
@thelightings 2 ปีที่แล้ว
thanks ad nhiều
@louv8888 4 ปีที่แล้ว
Cho mình hỏi công ty bạn nói trong video bảo đã trở thành Unicorn là công ty làm về mảng gì thế?
@DataGuyStory 4 ปีที่แล้ว
Là công ty mà mình ví dụ trong tưởng tượng, còn công ty nào thì mình không biết :))
@donhotruong 3 ปีที่แล้ว
Anh cho e hỏi, a đang dùng phần mềm gì để viết đó ạ
@DataGuyStory 3 ปีที่แล้ว
Anh dùng ipad nhé
@suongphamthianh331 2 ปีที่แล้ว
Cảm ơn anh nhiều ạ. Hi vọng anh sẽ ra nhiều video về data engineer hơn.
@minhkhangnguyen1933 4 ปีที่แล้ว
A dùng font j đây ạ
@minhpham7603 4 ปีที่แล้ว
em cảm ơn anh nhé !
@hieuvutrung3481 3 ปีที่แล้ว
hay quá a
@hungnguyenmanh7737 3 ปีที่แล้ว
sao khong co nut double like nhi
@thomtran527 4 ปีที่แล้ว
anh ơi. Em dân kinh tế. Giờ muốn làm Data Eng thì phải bắt đầu học từ đâu ạ. Mong anh rep :D
@DataGuyStory 4 ปีที่แล้ว ⁺¹
Anh không biết là em muốn hỏi Data Engineer hay Data Analyst / Data Scientist. Dân kinh tế thì rất khó học Data Engineer vì nó đơn thuần là lập trình và code. Nên việc em học Data Engineer thì em phải học lập trình trước tiên. Em tham khảo video khác của anh về học Data Engineer nhé.
Thông thường dân kinh tế hay chuyển sang Data Analyst và Data Scientist thôi
@thomtran527 4 ปีที่แล้ว
@@DataGuyStory hiện em đang làm Data Analyst rồi (Biết SQL, Python) và muốn lấn sân sang Data Engineer để xây Data pipeline ạ. Đang mông lung không biết bắt đầu từ đâu :)
@DataGuyStory 4 ปีที่แล้ว
À thường mấy bạn trong cty mình từ Data Analyst sang build Data Pipeline thì học thêm về Spark và Python nếu công ty có Spark. Sau đó tập viết ETL Pipeline đơn giản lấy data thì database và lưu vào Data Warehouse
@ducanh1152 3 ปีที่แล้ว
A giai thich hay the :D
@trandovietofficial5549 3 ปีที่แล้ว
Love
@sangtan6430 4 ปีที่แล้ว
Hay quá anh ơi :))))
@zellkon ปีที่แล้ว
Đã sub thank anh
@tamvominh3272 4 ปีที่แล้ว
Anh đẹp trai quá!!!
@oanquocnhan6604 3 ปีที่แล้ว
Hi vọng anh để hiện lượt đăng ký để có thể theo dõi sự phát triển của kênh anh ạ
@Banbam1102 ปีที่แล้ว
@linh-phgvu 4 ปีที่แล้ว ⁺¹
lần này like được cái thứ 7th thôi =)))
@cuchuoisalay9263 3 ปีที่แล้ว
:))

ต่อไป

เล่นอัตโนมัติ

Statistical Thinking: Kỹ Năng Cần Thiết Cho Thời Đại Big Data